proxy代理   soft软件   IT 业界特快   norton 诺顿病毒库   代理列表   search FTP搜索   whois IP地理位置   blog 追求完美  
money理财   life生活   RSS聚合门户   firefox WEB浏览器   免费域名   typeset 假古文   AntiVirus 反病毒   ipcn 站点导航  

« del.icio.us 被 Yahoo 收购 我所想到的 | Main | 同学录、校友录客户端Alumni 0.14 b1212 发布 更新了http://alumni.ipcn.org/ »

December 11, 2005

搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词

版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。
https://windtear.net/archives/2005/12/11/000852.html http://windtear.net/archives/2005/12/11/000852.html

搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词

到年底了就开始回顾总结
年初订的计划中有一个是PV系统
PV是PageView的缩写 主要是做访问跟踪的

经过努力 我的PV系统
IPCN PageView Tracking System v1.0.2
于6月底正式上线了(2005-06-28 16:22:11)

2005-07-04 22:57 我爱网络 IPCN PV 系统上线
2005-06-30 23:52 我爱网络 perl 的 Unicode 处理, 5.6.1 到 5.8.0 的大升级
2005-12-08 23:55 我爱网络 又见编码与解码 javascript escaped UNICODE string 的解码 (php&perl)

下午看PV系统的数据 于是就到ITExpress发起讨论《搜索引擎》...
根据我的理解
PV系统这块 特别是小型PV系统
最重要的在于数据处理这方面
数据收集方法这块不是什么问题
最不济还可以用squid/apache log

所以我的努力主要花在了数据处理、管理查看统计接口上
本篇blog就写一下其中的关键词分拆 (只是分解refer关键词 这个不叫分词)

搜索引擎  关键词        起始条(页)     纪录数
google    q             start          num
baidu     wd/word       pn             rn
yahoo     p/va/vo/ve/vp b              n
yisou     p
3721      p/name
qq        word/w        page_no(1开始)
sina      _searchkey    _sp(0开始)
iask      _searchkey/k  _start
zhongsou  word/w        bg(1开始)
163       q             pg(1开始)
sogou     query         page(1开始)


不光如此 分词还要处理编码/解码
google 是 ie
yahoo 是 ei
至于javascript的escape编码等就不细提了 前面专门写过blog

搜索也还有其他的 不过国内来源不常见 这里就不细化了
altavista webcrawler metacrawler netfind.aol infoseek excite hotbot

如果做一套大的PV系统或者日志系统
又要牵涉到很多数据挖掘的知识
这里暂不展开
本blog WWW

Posted by windtear at December 11, 2005 11:49 PM

本站使用中的任何问题,请与 windtear @ windtear.net 联系
Copyright© 1999-2024 Windtear. All rights reserved.