seo网站优化方案,做相似网站,推广网站怎么制作,微信 公众号导入wordpress一、储备篇
1、requests库让我们可以通过python代码去构建和发送HTTP请求 2、第三方库#xff0c;要先安装
python终端#xff0c;输入pip install requests
successfully installed#xff1a;安装成功
requirement already satisfied: 说明已经安装过#xff0c;无需…一、储备篇
1、requests库让我们可以通过python代码去构建和发送HTTP请求 2、第三方库要先安装
python终端输入pip install requests
successfully installed安装成功
requirement already satisfied: 说明已经安装过无需再安装 若没有pippython包管理工具
则可以先去http://pip.pypa.io/en/stable/installation/学习下载安装 3、
import requests
responserequests.get(http://books.toscrape.com) #发送get请求这是一个专门给练习爬虫的网站
#协议名http://或https://网址 完整的URL
#用requests库的函数发送请求时请求头的信息会被自动生成主机域名URL参数中客户端是谁自动生成客户端想要什么类型的数据#若想对某些信息进行更改的话可以额外传入一个headers的参数
head{User-Agent:Mozilla/5.0(Windows NT 10.0;Win64;x64} #数据类型是字典键值对可写清楚要传入的信息
#User-Agent: Mozilla/5.0(Windows NT 10.0;Win64:x64)可帮我们把爬虫程序伪装成正常浏览器浏览器类型及版本以及电脑操作系统等
responserequests.get(http://books.toscrape.com,headershead)print(response) #打印出来是一个response类的实例代表着服务器发回给我们的响应包含的属性有:
print(response.status_code) #状态码属性
print(response.ok) #ok属性true表示请求成功
if response.ok:print(请求成功)#获取响应体的内容print(response.text) #text属性会以字符串存储响应内容
else:print(请求失败) 二、实战篇
爬取豆瓣top250数据
#1、安装requests库: 终端输入pip install requests#2、引入requests库:
import requests#豆瓣用418回应爬虫自己只希望服务于正常的浏览器
#伪装:
#抄作业: 选一个网页-右键检查-Network- 刷新网页-点击任意请求-展开request haeders-找到并复制user-agent
headers{User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36}
responserequests.get(https://movie.douban.com/top250,headersheaders)
print(response)
print(response.status_code) #表示客户端错误可以通过链接developer.mozilla.org查看文档
print(response.text)