proxy代理   soft软件   IT 业界特快   norton 诺顿病毒库   代理列表   search FTP搜索   whois IP地理位置   blog 追求完美  
money理财   life生活   RSS聚合门户   firefox WEB浏览器   免费域名   typeset 假古文   AntiVirus 反病毒   ipcn 站点导航  

« del.icio.us 被 Yahoo 收购 我所想到的 | Main | 同学录、校友录客户端Alumni 0.14 b1212 发布 更新了http://alumni.ipcn.org/ »

December 11, 2005

搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词

版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。
http://windtear.net/archives/2005/12/11/000852.html http://windtear.net/archives/2005/12/11/000852.html

搜索引擎的关键词分拆 - 分解来自搜索引擎的refer关键词

到年底了就开始回顾总结
年初订的计划中有一个是PV系统
PV是PageView的缩写 主要是做访问跟踪的

经过努力 我的PV系统
IPCN PageView Tracking System v1.0.2
于6月底正式上线了(2005-06-28 16:22:11)

2005-07-04 22:57 我爱网络 IPCN PV 系统上线
2005-06-30 23:52 我爱网络 perl 的 Unicode 处理, 5.6.1 到 5.8.0 的大升级
2005-12-08 23:55 我爱网络 又见编码与解码 javascript escaped UNICODE string 的解码 (php&perl)

下午看PV系统的数据 于是就到ITExpress发起讨论《搜索引擎》...
根据我的理解
PV系统这块 特别是小型PV系统
最重要的在于数据处理这方面
数据收集方法这块不是什么问题
最不济还可以用squid/apache log

所以我的努力主要花在了数据处理、管理查看统计接口上
本篇blog就写一下其中的关键词分拆 (只是分解refer关键词 这个不叫分词)

搜索引擎  关键词        起始条(页)     纪录数
google    q             start          num
baidu     wd/word       pn             rn
yahoo     p/va/vo/ve/vp b              n
yisou     p
3721      p/name
qq        word/w        page_no(1开始)
sina      _searchkey    _sp(0开始)
iask      _searchkey/k  _start
zhongsou  word/w        bg(1开始)
163       q             pg(1开始)
sogou     query         page(1开始)


不光如此 分词还要处理编码/解码
google 是 ie
yahoo 是 ei
至于javascript的escape编码等就不细提了 前面专门写过blog

搜索也还有其他的 不过国内来源不常见 这里就不细化了
altavista webcrawler metacrawler netfind.aol infoseek excite hotbot

如果做一套大的PV系统或者日志系统
又要牵涉到很多数据挖掘的知识
这里暂不展开
本blog WWW

Posted by windtear at December 11, 2005 11:49 PM

Trackback Pings

TrackBack URL for this entry:
http://cgi.windtear.net/cgi-bin/wt-tb.cgi/852

Comments

搜索引擎关键字总结不错,省得我一个一个找了,hoho

Posted by: kxn at December 21, 2005 11:38 AM

Post a comment

Remember Me?



我爱网络
2007-12-31 23:51 2007年度 ipcn.org/ipchina.org 总结报告
2007-12-31 00:31 vmware gsx server service
2007-12-31 00:15 squid 对 404 302 缓存的相关问题
2007-12-30 14:24 升级到 MovableType 3.3x 并修改 entry_basename 兼容性
2007-12-30 13:52 [php] realip judge 前面补0的ip格式剔除
2007-12-14 16:34 rm -rf * 系统管理员要排查的定时炸弹
2007-12-13 19:03 山西的宽带运营商太过分了 私自窜改dns解析
2007-12-13 16:35 F5 MIB 再学习 唯一性标记用地址的小bug
2007-12-11 22:15 perl 用Spreadsheet::WriteExcel写了个处理/读写excel的小程序
2007-12-11 13:39 perl 变量转义的问题

本站使用中的任何问题,请与 windtear SPAM windtear SPAM net 联系
Copyright© 1999-2008 Windtear. All rights reserved.
京ICP备05050670号