最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
基于用户浏览记录的网页rank思路分析
时间:2022-06-29 05:21:49 编辑:袖梨 来源:一聚教程网
市场上大多数搜索引擎都在使用pagerank类似的方法,且为了保证公正性,都采用纯机器运行的方式,通过网页爬虫来遍历网站,这就出现了一些有趣的问题:
1、一个网页的内容是很棒的,但是由于外链太少,爬虫在设定的深度阈值下可能无法爬到它,成为了少人问津的“暗内容”
2、部分网站因为PR值很高,即使转载的内容或是价值不高的内容,也可能有很好的检索排名,即使技术领先的搜索引擎采用语义网络的方法识别优质内容,效果依然不够好
为了规避以上问题,引入用户数据来评判网页内容的重要性及质量,是一个可研究方向,怎么做呢?
假设: 浏览行为及时长是对网页质量的最好评判,相当于用户标注,在大规模数据的情况下,效果应优于机器
原理:
1、通过浏览器或其他客户端软件,最好的防火墙或其他安全软件,获取用户浏览日志,上传给搜索引擎的爬虫数据库,即是得到用户浏览数据
2、爬虫匹配已有索引库,找到未索引内容,爬之
3、利用用户日志给网页投票,浏览时间越长权重越高,计算出网页的rank
缺陷:
1、依赖客户端
2、有用户隐私问题
规避:
1、提出云杀毒、云防御、云安全,让用户同意上传浏览记录
2、偷偷上传,将浏览记录(其他文件也可以)加密并分拆上传,在服务器端组合还原
好了,思路说完了,来给它起个响亮高深名字:peoplerank
最后,我这是很严肃地说技术
相关文章
- 《绝区零》伊芙琳培养材料汇总 01-24
- 《无限暖暖》1.2春节兑换码一览 01-24
- 《网上国网》查询阶梯档位方法 01-24
- 《蛋仔派对》神游贺岁盲盒获取方法 01-24
- 《炉石传说》星际联动盗贼卡组玩法介绍 01-24
- 皮革珊瑚属于珊瑚中的 01-24