网站域名怎么设置方法,北京海淀区属于几环,东南亚vps,在门户网站建设上的讲话前言
(#xff61;#xff65;∀#xff65;)#xff89;#xff9e;嗨 大家好#xff0c;这里是小圆
现在开始每天都给大家 分享些关于python爬虫的案例教学
从最简单的开始 — 采集图片壁纸
今天就来扒拉这个优质的壁纸网站~
网址 #x1f447; 顺便瞧一眼 这里的…前言
(∀)嗨 大家好这里是小圆
现在开始每天都给大家 分享些关于python爬虫的案例教学
从最简单的开始 — 采集图片壁纸
今天就来扒拉这个优质的壁纸网站~
网址 顺便瞧一眼 这里的壁纸 当然 肯定不止这些… 前期准备
环境使用
Python 3.8 解释器Pycharm 编辑器
模块准备
# 导入数据请求模块 -- 第三方模块, 需要安装 pip install requests
import requests
# 导入正则模块 -- 内置模块, 不需要安装
import re案例实现思路
一. 数据来源分析
明确需求: 采集的网站是什么? 采集的数据是什么? 图片链接 图片名字通过开发者工具抓包分析, 图片链接/图片名字 数据内容在哪里可以获取到 由小到大 先分析一张图片数据在什么地方, 再分析如何获取多张图片 打开开发者工具: F12 / 鼠标右键点击检查选择network 刷新网页: 让本网页数据内容重新加载一遍 搜索数据来源: 复制关键参数, 直接进行搜索 目的获取图片链接/图片名字 图片详情页 获取图片ID 图片目录页面里面有 和正常访问网站观看图片一样的 代码实现步骤 获取图片ID: 发送请求, 模拟浏览器对于url地址发送请求 请求 图片目录页面url获取数据, 获取服务器返回响应数据 response 网页源代码解析数据, 提取我们想要的数据内容 图片ID 获取图片链接/名字 发送请求, 模拟浏览器对于url地址发送请求 请求 图片详情页页面获取数据, 获取服务器返回响应数据 response 网页源代码解析数据, 提取我们想要的数据内容 图片链接 图片名字 保存数据保存数据, 保存本地文件夹 ok到这里后 咱就开始敲敲写写代码吧 实现代码
1. 发送请求
模拟浏览器对于url地址发送请求
模拟浏览器 反爬处理 请求头 字典数据类型 如果你不伪装, 可能会被识别出来是爬虫程序, 从而得到数据内容 可以直接复制粘贴 -- 开发者工具里面就可以复制
Response [200] 响应对象 Response: 中文意思–响应 : 表示对象 200: 状态码 表示请求成功
### 源码领取kou群309488165 ###
for page in range(2, 11):print(f正在采集第{page}页的数据内容)# 请求图片目录页面urlurl fhttp://www.netbian.com/dongman/index_{page}.htm# 伪装模拟成浏览器headers {# User-Agent 用户代理 浏览器基本身份信息User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36}# 发送请求# 调用requests模块里面get请求方法, 对于url地址发送请求, 并且携带上headers请求头伪装, 最后用自定义变量名response接受返回的数据response requests.get(urlurl, headersheaders)2. 获取数据
获取服务器返回响应数据
response 网页源代码
response.text 获取响应文本数据 网页源代码3. 解析数据
提取我们想要的数据内容 图片ID
调用re模块里面findall方法 -- 找到所有我们想要的数据
re.findall(‘找什么数据’, ‘从哪里找’) -- 从什么地方, 去匹配找什么样的数据内容
从 response.text网页源代码 里面 去找 a href“/desk/(\d).htm” 其中 (\d) 就是我们要的内容 \d 表示任意数字 # 提取图片ID -- 列表 盒子/箱子 29381 是列表箱子里面元素苹果img_id_list re.findall(a href/desk/(\d).htm, response.text)# for循环遍历, 把列表里面元素 一个一个提取出来for img_id in img_id_list:# img_id变量袋子 给 img_id_list 列表盒子 里面 元素苹果 给装起来print(img_id)4. 发送请求 5. 获取数据, 获取服务器返回响应数据
response 网页源代码 # 请求详情页链接 -- f{img_id} 字符串格式化方法link fhttp://***.com/desk/{img_id}.htm# 发送请求response_1 requests.get(urllink, headersheaders)# 获取数据内容 网页源代码 --- 乱码了, 进行转码response_1.encoding gbk6. 解析数据
提取我们想要的数据内容 图片链接/图片标题 img_url, img_title re.findall(img src(.*?) alt(.*?), response_1.text)[0]7. 保存数据
先获取图片数据内容
img_content requests.get(urlimg_url, headersheaders).content
with open(img\\ img_title .jpg, modewb) as f:f.write(img_content)
print(img_url, img_title)效果展示 视频教程 如何批量下载保存高清壁纸手把手带你用Python实现出来最后
今天的案例分享到这里就结束啦
对文章有问题的铁汁可以私信我哦