当前位置: 首页 > news >正文

怎样设置自己的网站Wordpress主题 程序员

怎样设置自己的网站,Wordpress主题 程序员,自己做网站可以揽业务吗,办公室装修怎么做账前言 最近有遇到很多小伙伴私信向我求助#xff0c;遇到的问题基本上都是关于文本混淆或者是字体反爬的问题。今天给大家带来其中一个小伙伴的实际案例给大家讲讲解决方法 #x1f4dd;个人主页→数据挖掘博主ZTLJQ的主页 ​​ 个人推荐python学习系列#xff1a; ☄️爬虫J…  前言 最近有遇到很多小伙伴私信向我求助遇到的问题基本上都是关于文本混淆或者是字体反爬的问题。今天给大家带来其中一个小伙伴的实际案例给大家讲讲解决方法 个人主页→数据挖掘博主ZTLJQ的主页 ​​ 个人推荐python学习系列 ☄️爬虫JS逆向系列专栏 - 爬虫逆向教学 ☄️python系列专栏 - 从零开始学python 首先呢我们要讲的就是去哪儿网实战案例那么私信我的这位小伙伴呢是想爬机票的信息那么我们首先第一步就是打开网站 ​ 打开网站以后呢我们就可以随便选择一个飞机的方向比如我选择北京到马尼拉的机票点击以后就会出现这个画面如下 ​ 我们可以看到每一个时间段、航班的不同都会产生不同的价格那么按照平时我们看到这样的静态网站直接打开F12定位一下价格用XPATH或者正则表达式就直接爬取完毕了但是这个问题就出现在这里了让我们打开F12抓包工具定位到价格会出现如下图所示的画面 网页显示的价格 ​ 网页源码中定位到标签元素的价格 ​ 我们可以看到b标签下的i标签拼凑起来是978 和原本的价格971是不一样的但是我们又可以发现一个规律b标签下面还有一个b标签这个b标签中的1就是我们需要的价格如下图 ​ 似乎我们已经找对方向了那么接下来我们多看看几个价格找一下其中的规律我们接着往下面看一个价格如下图 网页显示的价格 ​ 网页源码中定位到标签元素的价格 ​ 我们会发现b标签下的i标签是9412明显不是我们想要的数据但是下面的b标签中131不就是我们需要的数据吗如下图 ​ 这里我们会发现9412中最后一个2是我们要的数据下面的b标签中131也是我们需要的数据这个数据再按顺序排列一下就是1312就成为了我们的价格但是这个顺序是怎么看的呢我们仔细看下面的b标签中style元素中有一项 left:-64px这个值得引起我们的注意在前端中px代表的是像素也就是移动的举例left表示左边我们发现前面有一个width16px是不是说明每一个数字的占位宽带代表着16个像素而1这个数字要向左移动64个像素也就是最前面这样就说的过去了如下图 ​ ​ 那么我们就可以知道上面的i标签是用来迷惑我们的下面的b才是我们需要爬取的数字并且b标签的style代表的是偏移的位置也就是用来帮助我们对数字进行排序的那么有了这个思路我们就可以开始写代码了。 首先呢我们先写一个文本可以直接复制机票网站源码中偏移的标签 text em classrelb stylewidth:64px;left:-64pxi title1275 stylewidth: 16px;4/ii title1275 stylewidth: 16px;2/ii title1275 stylewidth: 16px;6/ii title1275 stylewidth: 16px;5/i/bb title1275 stylewidth: 16px;left:-32px7/bb title1275 stylewidth: 16px;left:-16px5/bb title1275 stylewidth: 16px;left:-64px1/b /em接下来导入相应的库然后写一个空的列表先把所有的i标签文本获取下来存入到空列表当中如下图 ​ 接下来呢我们根据上面的规律需要替换的i标签只有后面3个所有我们只取新建列表的后3个数据然后准备替换成b标签中的数据其次我们需要获取b标签中的文本数据也就是数字还有style中偏移的数据用来准备替换新建列表中的排序顺序。 ​ 最后获取style的值替换偏移的数字即可 下面是所有的代码大家可以参考  text em classrelb stylewidth:64px;left:-64pxi title1275 stylewidth: 16px;4/ii title1275 stylewidth: 16px;2/ii title1275 stylewidth: 16px;6/ii title1275 stylewidth: 16px;5/i/bb title1275 stylewidth: 16px;left:-32px7/bb title1275 stylewidth: 16px;left:-16px5/bb title1275 stylewidth: 16px;left:-64px1/b /em import re from lxml import etreecontent etree.HTML(text)# 先保存列表 到占位的数据 zhanwei [] for i in content.xpath(//em[classrel]/b/i):zhanwei.append(i.text)# 定位到后面3个b标签 也就是去除第一个先 tag content.xpath(//em[classrel]/b)[1:] a1 [(i.text,i.xpath(./style)[0]) for i in tag] # 获取styles的偏移值 for p,style in a1:styles re.findall(width: 16px;left:-(.*?)px,style)[0]print(styles)# 替换 偏移值zhanwei[-int(styles) // 16] pprint(zhanwei) 当然可能有的小伙伴没有见过-int这种写法其实还有一种写法我给大家举例让大家对比使用 # 2种写法for p,style in a1:styles re.findall(width: 16px;left:(.*?)px,style)[0]print(styles)# 替换 偏移值zhanwei[int(styles) // 16] pfor p,style in a1:styles re.findall(width: 16px;left:-(.*?)px,style)[0]print(styles)# 替换 偏移值zhanwei[-int(styles) // 16] p那么我们就可以完成这种偏移的数据的爬取了具体大家想要爬取那些数据大家可以自行写代码方法和思路都教给大家了大家加油吧
http://www.w-s-a.com/news/683984/

相关文章:

  • 建设一个私人视频网站wordpress js
  • 手机企业网站制作流程3d建模自学
  • 网站优化方案和实施wordpress的归档
  • 建设事业单位网站多少钱集艾设计公司官网
  • 网站建设与管理方案书图片的制作方法
  • 中文建网站美发网站模板带手机版
  • 免费聊天不充值软件windows优化大师下载安装
  • 网站优化的关键词自己怎么做外贸网站空间
  • 现在建设的网站有什么劣势温州互联网公司
  • 重庆自助企业建站模板淘宝关键词top排行榜
  • 平邑网站制作买高端品牌网站
  • 深圳建网站三千网站安全代维
  • 西宁市精神文明建设网站装饰设计甲级资质
  • 做教育行业营销类型的网站徐州做网站多少钱
  • 临沂品牌网站制作企业网站建设搜集资料
  • wordpress注册验证码手机网站优化
  • 往建设厅网站上传东西做衣服的教程网站有哪些
  • 网上商城网站设计免费咨询口腔科医生回答在线
  • 南京网站c建设云世家 s浏览器
  • 如何做镜像别人网站wordpress菜单对齐修改
  • 长春网站建设net企业公示信息查询官网
  • 金鹏建设集团网站可在哪些网站做链接
  • 电子产品网站开发背景网站关键词优化方案
  • 建网站论坛wordpress提交数据库错误
  • 国内网站建设公司开源网站系统
  • 网站开发公司上大连网站建设流程图
  • 银川网站seo宁波网
  • 个人备案网站会影响吗网站添加 备案
  • 网站建设与电子商务的教案关于旅游网站建设的方案
  • 电子商务网站建设设计原则找做网站找那个平台做