温州网站推广优化,类似淘宝的网站怎么做的,网站建设所需基本资料,网站搭建教程零基础Python爬虫:下载人生格言
爬取网页 将这些格言下载存储到本地
代码:
import requests #导入requests库#xff0c;用于提取网页
from lxml import etree#导入lxml库#xff0c;用于Xpath数据解析#请求头
header{
user-agent:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) A…Python爬虫:下载人生格言
爬取网页 将这些格言下载存储到本地
代码:
import requests #导入requests库用于提取网页
from lxml import etree#导入lxml库用于Xpath数据解析#请求头
header{
user-agent:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0
}#每个浏览器的user-agent不一样在浏览器中查找urlhttp://m.3chongmen.com/renshenggeyan/162.html#请求网址
res1requests.get(urlurl,headersheader).text
htmletree.HTML(res1)
titlehtml.xpath(//div[classtitle]/h1/text())[0]#数据解析提取标题
contenthtml.xpath(//div[classcontent]/text())#数据解析提取内容
content.join(content)
print(title)
print(content)运行结果: 分析:
导入requests库 requests库是第三方库要提前安装 输入指令进行安装
pip install requests*导入lxml库 输入指令
pip install lxmlheaders 最简单的只用加上user-agent就可以了 鼠标右键选择”检查“点击”网络“ctrlR刷新页面点击第一份文件点击”标头“滑到最下方查找”User-Agent“,复制到pycharm中即可 数据解析Xpath 用requets获取的源代码如图想要的信息就在这里面我们需要提取出来因此就要用到Xpath进行解析要先学习一下Xpath语法和lxml库的使用可以在网上查找相关资料
拓展
将目录下的所有人生格言提取并保存在本地
代码
import requests
from lxml import etreeheader{
user-agent:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0
}def spider(url):res1requests.get(urlurl,headersheader).texthtmletree.HTML(res1)contenthtml.xpath(//div[classcontent]/text())content.join(content)titlehtml.xpath(//div[classtitle]/h1/text())[0]return title,contenturl1http://m.3chongmen.com/renshenggeyan
resrequests.get(urlurl1,headersheader).text
htmletree.HTML(res)
linkshtml.xpath(//ul[classlist_cnt]//a[target_blank]/href)for link in links:title,contentspider(link)with open(f格言/{title}.txt,w,encodingutf-8) as f:f.write(title\n\n)f.write(content)运行结果: