« del.icio.us 被 Yahoo 收购 我所想到的 | Main | 同学录、校友录客户端Alumni 0.14 b1212 发布 更新了http://alumni.ipcn.org/ »
December 11, 2005
搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词
|
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。 http://windtear.net/archives/2005/12/11/000852.html http://windtear.net/archives/2005/12/11/000852.html 搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词 到年底了就开始回顾总结 年初订的计划中有一个是PV系统 PV是PageView的缩写 主要是做访问跟踪的 经过努力 我的PV系统 IPCN PageView Tracking System v1.0.2 于6月底正式上线了(2005-06-28 16:22:11) 2005-07-04 22:57 我爱网络 IPCN PV 系统上线 2005-06-30 23:52 我爱网络 perl 的 Unicode 处理, 5.6.1 到 5.8.0 的大升级 2005-12-08 23:55 我爱网络 又见编码与解码 javascript escaped UNICODE string 的解码 (php&perl) 下午看PV系统的数据 于是就到ITExpress发起讨论《搜索引擎》... 根据我的理解 PV系统这块 特别是小型PV系统 最重要的在于数据处理这方面 数据收集方法这块不是什么问题 最不济还可以用squid/apache log 所以我的努力主要花在了数据处理、管理查看统计接口上 本篇blog就写一下其中的关键词分拆 (只是分解refer关键词 这个不叫分词) 搜索引擎 关键词 起始条(页) 纪录数 google q start num baidu wd/word pn rn yahoo p/va/vo/ve/vp b n yisou p 3721 p/name qq word/w page_no(1开始) sina _searchkey _sp(0开始) iask _searchkey/k _start zhongsou word/w bg(1开始) 163 q pg(1开始) sogou query page(1开始) 不光如此 分词还要处理编码/解码 google 是 ie yahoo 是 ei 至于javascript的escape编码等就不细提了 前面专门写过blog 搜索也还有其他的 不过国内来源不常见 这里就不细化了 altavista webcrawler metacrawler netfind.aol infoseek excite hotbot 如果做一套大的PV系统或者日志系统 又要牵涉到很多数据挖掘的知识 这里暂不展开 |
Posted by windtear at December 11, 2005 11:49 PM
Trackback Pings
TrackBack URL for this entry:
http://cgi.windtear.net/cgi-bin/wt-tb.cgi/852
Comments
搜索引擎关键字总结不错,省得我一个一个找了,hoho
Posted by: kxn at December 21, 2005 11:38 AM
Post a comment
【我爱网络】
2007-12-31 23:51 2007年度 ipcn.org/ipchina.org 总结报告
2007-12-31 00:31 vmware gsx server service
2007-12-31 00:15 squid 对 404 302 缓存的相关问题
2007-12-30 14:24 升级到 MovableType 3.3x 并修改 entry_basename 兼容性
2007-12-30 13:52 [php] realip judge 前面补0的ip格式剔除
2007-12-14 16:34 rm -rf * 系统管理员要排查的定时炸弹
2007-12-13 19:03 山西的宽带运营商太过分了 私自窜改dns解析
2007-12-13 16:35 F5 MIB 再学习 唯一性标记用地址的小bug
2007-12-11 22:15 perl 用Spreadsheet::WriteExcel写了个处理/读写excel的小程序
2007-12-11 13:39 perl 变量转义的问题