柳州十一冶建设集团网站,msn网站制作,手机装修设计软件app,商品详情页面模板爬虫简介 爬虫初始深入
爬虫在使用场景中的分类
通用爬虫#xff1a; 抓取系统重要组成部分。抓取的是一整张页面数据 聚焦爬虫#xff1a; 是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容。 增量式爬虫 监测网站中数据更新的情况。只会抓取网站中最新更新出来的…爬虫简介 爬虫初始深入
爬虫在使用场景中的分类
通用爬虫 抓取系统重要组成部分。抓取的是一整张页面数据 聚焦爬虫 是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容。 增量式爬虫 监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。 反爬机制 可以通过制定相应的策略或技术手段防止爬虫进行爬取。 反反爬策略 可以通过制定相关策略或技术手段破解反爬机制从而可以获取门户网站中相关的数据。
反爬机制robots.txt协议
君子协议规定了网站中哪些数据可以被爬虫爬取哪些不可以。HTTPHTTPS
超文本传输协议服务器和客户端进行数据交互的一种形式
常用请求头信息
User-Agent请求载体的身份标识Connection请求完毕后是断开连接还是保持连接
常用响应头信息
Content-Type: 服务器响应回客户端的数据类型。
https协议
安全的超文本传输协议
加密方式
对称密钥加密将密文和密钥一起发送非对称密钥加密公开密钥加密私有密钥解密。客户端拿到的公钥可能被篡改证书密钥加密https加入证】书认证机构
requests模块基础 以json文件保存到本地
file open(./huanzhuanpin.json,w,encodingutf-8)
json.dump(all_data,fpfile,ensure_asciiFalse)