查看: 250|回复: 0
打印 上一主题 下一主题

常见的几种爬虫策略

[复制链接]

9万

主题

9万

帖子

28万

积分

管理员

管理员

Rank: 9Rank: 9Rank: 9

积分
289334
跳转到指定楼层
楼主
发表于 2020-2-16 23:15:33 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
在爬虫系统中,等待抓取URL队列是很重要的组成部分,等待抓取URL队列中的URL的顺序排列方式也是一个很重要的问题,因为这会决定到先抓取哪个页面,后抓取哪个页面.而决定这些URL排列顺序的方法,叫做抓取策略。几种常见的抓取策略:1、深度优先遍历策略:深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,直到处理完这条线路之后才会转入下一个起始页,继续跟踪链接。2、宽度优先遍历策略:宽度优先遍历策略的基本思路就是,将新下载网页中发现的链接直接放入待抓取URL队列的末尾。也就是说网络爬虫会优先抓取起始网页中链接的所有网页,所有网页都抓取完之后,再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。3、反向链接数策略:反向链接数是指一个网页被其他网页链接指向的数量,同时反向链接数也是表示一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。4、OPIC策略策略:这种算法实际上也是对网络页面进行一个重要性的打分。在算法开始前,会给所有页面一个相同的初始现金(cash)。当下载了某个页面之后,将页面的现金分摊给所有从页面中分析出的链接,并且将页面的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。5、大站优先策略:对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。  6.使用高质量亿牛云http代理配合爬虫程序去进行采集
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|IT视频教程资源网 网站地图

GMT+8, 2024-11-15 23:38 , Processed in 0.231295 second(s), 22 queries .

快速回复 返回顶部 返回列表

客服
热线

微信
7*24小时微信 客服服务

扫码添
加微信

添加客服微信 获取更多

关注
公众号

关注微信公众号