« del.icio.us 被 Yahoo 收购 我所想到的 | Main | 同学录、校友录客户端Alumni 0.14 b1212 发布 更新了http://alumni.ipcn.org/ »
December 11, 2005
搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。 https://windtear.net/archives/2005/12/11/000852.html http://windtear.net/archives/2005/12/11/000852.html 搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词 到年底了就开始回顾总结 年初订的计划中有一个是PV系统 PV是PageView的缩写 主要是做访问跟踪的 经过努力 我的PV系统 IPCN PageView Tracking System v1.0.2 于6月底正式上线了(2005-06-28 16:22:11) 2005-07-04 22:57 我爱网络 IPCN PV 系统上线 2005-06-30 23:52 我爱网络 perl 的 Unicode 处理, 5.6.1 到 5.8.0 的大升级 2005-12-08 23:55 我爱网络 又见编码与解码 javascript escaped UNICODE string 的解码 (php&perl) 下午看PV系统的数据 于是就到ITExpress发起讨论《搜索引擎》... 根据我的理解 PV系统这块 特别是小型PV系统 最重要的在于数据处理这方面 数据收集方法这块不是什么问题 最不济还可以用squid/apache log 所以我的努力主要花在了数据处理、管理查看统计接口上 本篇blog就写一下其中的关键词分拆 (只是分解refer关键词 这个不叫分词) 搜索引擎 关键词 起始条(页) 纪录数 google q start num baidu wd/word pn rn yahoo p/va/vo/ve/vp b n yisou p 3721 p/name qq word/w page_no(1开始) sina _searchkey _sp(0开始) iask _searchkey/k _start zhongsou word/w bg(1开始) 163 q pg(1开始) sogou query page(1开始) 不光如此 分词还要处理编码/解码 google 是 ie yahoo 是 ei 至于javascript的escape编码等就不细提了 前面专门写过blog 搜索也还有其他的 不过国内来源不常见 这里就不细化了 altavista webcrawler metacrawler netfind.aol infoseek excite hotbot 如果做一套大的PV系统或者日志系统 又要牵涉到很多数据挖掘的知识 这里暂不展开 |
Posted by windtear at December 11, 2005 11:49 PM