最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
获取google pagerank值的研究
时间:2022-07-02 19:53:01 编辑:袖梨 来源:一聚教程网
今天在网上看到有网站提供显示google pagerank值的功能,听说google已经取消了公开的pagerank显
示,只有通过ie google toolbar获得,所以觉得挺有意思,就去研究了一下。
我装上google toolbar抓了一下socket包,得到了如下信息:
GET /search?client=navclient-auto&googleip=O;3812&ch=62544423920&freshness_check=
4X0lThsX1_WR7cBSIbnl8&ie=UTF-8&oe=UTF-8&features=Rank&q=info:
http%3A%2F%2Fblog%2Eiyi%2Ecn%2Fdavid%2F HTTP/1.1
User-Agent: Mozilla/4.0 (compatible; GoogleToolbar 2.0.114.9-big; Windows 5.2)
Host: toolbarqueries.google.com
Cache-Control: no-cache
Cookie:
PREF=ID=3e46a681346bcce2:NW=1:TM=1099618786:LM=1104831026:TB=2:S=8oMV8rWWHE07ngDp
测试了一下,发现只有GET后面的信息和host比较重要,其他的信息可以任意填写
而这其中比较重要的信息是下面这几条:
client=navclient-auto&
ch=0123456789&
features=Rank&
q=info:http%3A%2F%2Fblog%2Eiyi%2Ecn%2Fdavid%2F
client=navclient-auto表示客户端是google toolbar,如果没有这个参数得到的结果是在google中
搜索这个网址的结果
ch=0123456789是checksum值,关键中的关键,google对每个网址用特殊算法进行转换后得到这个
checksum,google就是靠这个来对它的pagerank进行"加密"的。如果知道了这个算法,获取pagerank就
轻而易举了。
features=Rank获取的是pagerank值,我得到的结果是Rank_1:1:1其中最后一位是pagerank的值,如
果忽略这个参数得到的是相关网页在google中的详细信息的xml,我得到的是下面的信息:
-
0.124300
示,只有通过ie google toolbar获得,所以觉得挺有意思,就去研究了一下。
我装上google toolbar抓了一下socket包,得到了如下信息:
GET /search?client=navclient-auto&googleip=O;3812&ch=62544423920&freshness_check=
4X0lThsX1_WR7cBSIbnl8&ie=UTF-8&oe=UTF-8&features=Rank&q=info:
http%3A%2F%2Fblog%2Eiyi%2Ecn%2Fdavid%2F HTTP/1.1
User-Agent: Mozilla/4.0 (compatible; GoogleToolbar 2.0.114.9-big; Windows 5.2)
Host: toolbarqueries.google.com
Cache-Control: no-cache
Cookie:
PREF=ID=3e46a681346bcce2:NW=1:TM=1099618786:LM=1104831026:TB=2:S=8oMV8rWWHE07ngDp
测试了一下,发现只有GET后面的信息和host比较重要,其他的信息可以任意填写
而这其中比较重要的信息是下面这几条:
client=navclient-auto&
ch=0123456789&
features=Rank&
q=info:http%3A%2F%2Fblog%2Eiyi%2Ecn%2Fdavid%2F
client=navclient-auto表示客户端是google toolbar,如果没有这个参数得到的结果是在google中
搜索这个网址的结果
ch=0123456789是checksum值,关键中的关键,google对每个网址用特殊算法进行转换后得到这个
checksum,google就是靠这个来对它的pagerank进行"加密"的。如果知道了这个算法,获取pagerank就
轻而易举了。
features=Rank获取的是pagerank值,我得到的结果是Rank_1:1:1其中最后一位是pagerank的值,如
果忽略这个参数得到的是相关网页在google中的详细信息的xml,我得到的是下面的信息:
-
info:http://blog.iyi.cn/david/