页网站设计,太湖县网站建设公司,无法访问wordpress官网,wordpress作者头像工具#xff1a;python 3.7.3 、Chrome 、PyCharm 爬取过程 一、安装库#xff1a;requests requests库#xff1a;在python2 和python3中通用#xff0c;方法完全一样#xff0c;简单易用#xff0c;能够自动帮助我们解压#xff08;gzip压缩的等#xff09;网页内容。… 工具python 3.7.3 、Chrome 、PyCharm 爬取过程 一、安装库requests requests库在python2 和python3中通用方法完全一样简单易用能够自动帮助我们解压gzip压缩的等网页内容。requests提供了session类来实现客户端和服务端的会话保持。 sessionrequests.session()
session.post(http://www.renren.com/PLogin.do,headersheaders,datadata)
responsesession.get(http://www.renren.com/328724207,headersheaders) 二、爬取 1.寻找包含登陆信息的url和data Chrome浏览器中打开人人网直接跳转至登录页面打开检查点击Network下的Preview寻找包含响应的url。依次查看左侧除图片和Js外的响应发现登录信息在http://www.renren.com响应中。 转到Headers观察发现发送get请求,复制url和User-Agent运行代码 import requests
sessionrequests.session()#实例化session
urlhttp://www.renren.com
headers{User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36}
session.get(url,headersheaders)
responsesession.get(http://www.renren.com/328724207,headersheaders)
# print(response.status_code,response.content.decode())
with open(renren.html,w,encodingutf-8) as f:f.write(response.content.decode()) 打开得到的html文件发现并不包含用户个人信息 说明发送请求的url地址不正确分析为form表单登陆,需发送POST请求。转到Network下的Response下搜索form发现url地址为 http://www.renren.com/PLogin.do , data参数的数据为input标签下的内容name属性下的值为字典的键用户个人用户名和密码为字典的值。 2.代码 import requests
sessionrequests.session()#实例化session
urlhttp://www.renren.com/PLogin.do
headers{User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36}
data{email: 35xxxxxx0qq.com,password:xxxxxxxxxx }#个人用户名密码
session.post(url,headersheaders,datadata)#请求登陆页面
responsesession.get(http://www.renren.com/328724207,headersheaders)#请求个人主页页面
# print(response.status_code,response.content.decode())
with open(renren.html,w,encodingutf-8) as f:f.write(response.content.decode()) 三、结果及出现问题