高性能网站建设进阶指南,高德地图导航放弃重庆,oa办公系统软件多少钱,网站放到iis如何做指向目录
爬虫引发的问题
网络爬虫的尺寸
网络爬虫引发的问题
网络爬虫的限制
Robots协议
Robots协议的遵守方式
Robots的使用
对Robots协议的理解 爬虫引发的问题
网络爬虫的尺寸
爬取网页#xff0c;玩转网页#xff1a;
小规模#xff0c;数据量小#xff0c;爬取…目录
爬虫引发的问题
网络爬虫的尺寸
网络爬虫引发的问题
网络爬虫的限制
Robots协议
Robots协议的遵守方式
Robots的使用
对Robots协议的理解 爬虫引发的问题
网络爬虫的尺寸
爬取网页玩转网页
小规模数据量小爬取速度不敏感。Requests库
爬取网站爬取系列网站
中规模数据规模较大爬取速度敏感。Scrapy库
爬取全网
大规模搜索引擎爬取速度关键。定制开发
网络爬虫引发的问题
骚扰问题、法律风险、隐私泄露
网络爬虫的限制
来源审查判断User-Agent进行限制 检查来访HTTP协议头的User-Agent域之相应浏览器或友好爬虫的访问。发布公告Robots协议 告知所有爬虫网站的爬取策略要求爬虫遵守。 Robots协议
Robots Exclusion Standard 网络爬虫排除标准
作用网站告知网络爬虫哪些页面可以抓取哪些不行。
形式在网站根目录下的robots.txt文件。 案例京东的Robots协议
http://www.jd.com/robots.txt
# 对于任何的网络爬虫来源遵守如下协议
User-agent: *
# Disallow 表示不允许访问
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
# 以下四个网络爬虫不允许爬取任何资源
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /基本协议语法
# 注释
* 代表所有
./代表根目录
User-agent: * # 代表的是那些爬虫
Disallow: / # 代表不允许爬虫访问的目录其他网站的一些Robots协议但并不是所有网站都有robots协议
百度http://www.baidu.com/robots.txt新浪新闻http://news.sina.com.cn/robots.txt腾讯http://www.qq.com/robots.txt腾讯新闻http://news.qq.com/robots.txt国家教育部http://www.meo.edu.cn/robots.txt 注无robots协议 Robots协议的遵守方式
Robots的使用
网络爬虫自动或人工识别robots.txt再进行内容爬取。
约束性Robots协议是建议但非约束性网络爬虫可以不遵守但存在法律风险。
对Robots协议的理解
爬取网页玩转网页
访问量很小可以遵守
访问量较大建议遵守
爬取网站爬取系列网站
非商业且偶尔建议遵守
商业利益必须遵守
爬取全网
必须遵守