windtear 追求完美: 搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词

« del.icio.us 被 Yahoo 收购我所想到的 | Main | 同学录、校友录客户端Alumni 0.14 b1212 发布更新了http://alumni.ipcn.org/ »

December 11, 2005

搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词

版权声明：可以任意转载，转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。
https://windtear.net/archives/2005/12/11/000852.html http://windtear.net/archives/2005/12/11/000852.html

搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词

到年底了就开始回顾总结
年初订的计划中有一个是PV系统
PV是PageView的缩写主要是做访问跟踪的

经过努力我的PV系统
IPCN PageView Tracking System v1.0.2
于6月底正式上线了(2005-06-28 16:22:11)

2005-07-04 22:57 我爱网络 IPCN PV 系统上线
2005-06-30 23:52 我爱网络 perl 的 Unicode 处理, 5.6.1 到 5.8.0 的大升级
2005-12-08 23:55 我爱网络又见编码与解码 javascript escaped UNICODE string 的解码 (php&perl)

下午看PV系统的数据于是就到ITExpress发起讨论《搜索引擎》...
根据我的理解
PV系统这块特别是小型PV系统
最重要的在于数据处理这方面
数据收集方法这块不是什么问题
最不济还可以用squid/apache log

所以我的努力主要花在了数据处理、管理查看统计接口上
本篇blog就写一下其中的关键词分拆 (只是分解refer关键词这个不叫分词)

搜索引擎  关键词        起始条(页)     纪录数
google    q             start          num
baidu     wd/word       pn             rn
yahoo     p/va/vo/ve/vp b              n
yisou     p
3721      p/name
qq        word/w        page_no(1开始)
sina      _searchkey    _sp(0开始)
iask      _searchkey/k  _start
zhongsou  word/w        bg(1开始)
163       q             pg(1开始)
sogou     query         page(1开始)

不光如此分词还要处理编码/解码
google 是 ie
yahoo 是 ei
至于javascript的escape编码等就不细提了前面专门写过blog

搜索也还有其他的不过国内来源不常见这里就不细化了
altavista webcrawler metacrawler netfind.aol infoseek excite hotbot

如果做一套大的PV系统或者日志系统
又要牵涉到很多数据挖掘的知识
这里暂不展开

Posted by windtear at December 11, 2005 11:49 PM

windtear 追求完美

网络技术/Linux/自由、协作、创造－为了明天/个人原创整理

December 11, 2005

搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词