当前位置: 首页 > news >正文

网站域名怎么设置方法北京海淀区属于几环

网站域名怎么设置方法,北京海淀区属于几环,东南亚vps,在门户网站建设上的讲话前言 (#xff61;#xff65;∀#xff65;)#xff89;#xff9e;嗨 大家好#xff0c;这里是小圆 现在开始每天都给大家 分享些关于python爬虫的案例教学 从最简单的开始 — 采集图片壁纸 今天就来扒拉这个优质的壁纸网站~ 网址 #x1f447; 顺便瞧一眼 这里的…前言 (∀)嗨 大家好这里是小圆 现在开始每天都给大家 分享些关于python爬虫的案例教学 从最简单的开始 — 采集图片壁纸 今天就来扒拉这个优质的壁纸网站~ 网址 顺便瞧一眼 这里的壁纸 当然 肯定不止这些… 前期准备 环境使用 Python 3.8 解释器Pycharm 编辑器 模块准备 # 导入数据请求模块 -- 第三方模块, 需要安装 pip install requests import requests # 导入正则模块 -- 内置模块, 不需要安装 import re案例实现思路 一. 数据来源分析 明确需求: 采集的网站是什么? 采集的数据是什么? 图片链接 图片名字通过开发者工具抓包分析, 图片链接/图片名字 数据内容在哪里可以获取到 由小到大 先分析一张图片数据在什么地方, 再分析如何获取多张图片 打开开发者工具: F12 / 鼠标右键点击检查选择network 刷新网页: 让本网页数据内容重新加载一遍 搜索数据来源: 复制关键参数, 直接进行搜索 目的获取图片链接/图片名字 图片详情页 获取图片ID 图片目录页面里面有 和正常访问网站观看图片一样的 代码实现步骤 获取图片ID: 发送请求, 模拟浏览器对于url地址发送请求 请求 图片目录页面url获取数据, 获取服务器返回响应数据 response 网页源代码解析数据, 提取我们想要的数据内容 图片ID 获取图片链接/名字 发送请求, 模拟浏览器对于url地址发送请求 请求 图片详情页页面获取数据, 获取服务器返回响应数据 response 网页源代码解析数据, 提取我们想要的数据内容 图片链接 图片名字 保存数据保存数据, 保存本地文件夹 ok到这里后 咱就开始敲敲写写代码吧 实现代码 1. 发送请求 模拟浏览器对于url地址发送请求 模拟浏览器 反爬处理 请求头 字典数据类型 如果你不伪装, 可能会被识别出来是爬虫程序, 从而得到数据内容 可以直接复制粘贴 -- 开发者工具里面就可以复制 Response [200] 响应对象 Response: 中文意思–响应 : 表示对象 200: 状态码 表示请求成功 ### 源码领取kou群309488165 ### for page in range(2, 11):print(f正在采集第{page}页的数据内容)# 请求图片目录页面urlurl fhttp://www.netbian.com/dongman/index_{page}.htm# 伪装模拟成浏览器headers {# User-Agent 用户代理 浏览器基本身份信息User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36}# 发送请求# 调用requests模块里面get请求方法, 对于url地址发送请求, 并且携带上headers请求头伪装, 最后用自定义变量名response接受返回的数据response requests.get(urlurl, headersheaders)2. 获取数据 获取服务器返回响应数据 response 网页源代码 response.text 获取响应文本数据 网页源代码3. 解析数据 提取我们想要的数据内容 图片ID 调用re模块里面findall方法 -- 找到所有我们想要的数据 re.findall(‘找什么数据’, ‘从哪里找’) -- 从什么地方, 去匹配找什么样的数据内容 从 response.text网页源代码 里面 去找 a href“/desk/(\d).htm” 其中 (\d) 就是我们要的内容 \d 表示任意数字 # 提取图片ID -- 列表 盒子/箱子 29381 是列表箱子里面元素苹果img_id_list re.findall(a href/desk/(\d).htm, response.text)# for循环遍历, 把列表里面元素 一个一个提取出来for img_id in img_id_list:# img_id变量袋子 给 img_id_list 列表盒子 里面 元素苹果 给装起来print(img_id)4. 发送请求 5. 获取数据, 获取服务器返回响应数据 response 网页源代码 # 请求详情页链接 -- f{img_id} 字符串格式化方法link fhttp://***.com/desk/{img_id}.htm# 发送请求response_1 requests.get(urllink, headersheaders)# 获取数据内容 网页源代码 --- 乱码了, 进行转码response_1.encoding gbk6. 解析数据 提取我们想要的数据内容 图片链接/图片标题 img_url, img_title re.findall(img src(.*?) alt(.*?), response_1.text)[0]7. 保存数据 先获取图片数据内容 img_content requests.get(urlimg_url, headersheaders).content with open(img\\ img_title .jpg, modewb) as f:f.write(img_content) print(img_url, img_title)效果展示 视频教程 如何批量下载保存高清壁纸手把手带你用Python实现出来最后 今天的案例分享到这里就结束啦 对文章有问题的铁汁可以私信我哦
http://www.w-s-a.com/news/380434/

相关文章:

  • 做电子杂志用什么网站如何将网站生成二维码
  • 三点水网站建设洛阳市建设厅网站
  • 哪家做网站便宜网络推广培训吧
  • 网站怎么做支付非凡软件站
  • 北京谁会做网站开发熊岳网站怎么做
  • 南阳哪有做网站公司定制网站本地企业
  • 平板上做网站的软件邀约网站怎么做请柬
  • 企业网站成品源码邯郸做网站流程
  • 建设网站需要什么技术两个网站放在同一个服务器 备案
  • 焦作做网站推广天津网络关键词排名
  • siteserver cms网站访问量挂机宝可以做网站吗
  • 普宁网站建设公司网络商城设计
  • wordpress主题 外贸网站wordpress安装后输入帐号登不进去
  • 陕西省西安市建设局网站永登网站设计与建设
  • 广东网站设计招工.免费咨询贷款
  • 做试题网站在线做c 题的网站
  • 青岛发现51例阳性南京专业网站优化公司
  • 南昌建站如何上wordpress
  • 洛阳网站建设优惠公司建筑企业上市公司有哪些
  • 营销型网站建设营销型网站建设手机网站设计需要学什么
  • 在线视频网站 一级做爰片南通网站建设找哪家
  • 网站优化文章东莞专业网站建设价钱
  • 哈尔滨网页设计网站模板泰兴建设局网站
  • 响应式网站设计公司报纸做垂直门户网站
  • 陕西旭泽建设有限公司网站企业网站建设软件需求分析
  • 上海公司网站建设方案中企动力西安分公司
  • dedecms网站后台怎样才能上百度
  • 云互联的网站名字亚马逊雨林生物
  • 电商网站功能企查查企业信息查询网
  • 特色网站建设中国住房和城乡建设局官网