当前位置: 首页 > news >正文

石家庄局域网网站建设大胡子wordpress主题

石家庄局域网网站建设,大胡子wordpress主题,重庆今天新闻事件,万能浏览器有哪些1基本理论 1.1概念体系 网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等#xff0c;可以按照我们设置的规则自动化爬取网络上的信息#xff0c;这些规则被称为爬虫算法。是一种自动化程序#xff0c;用于从互联网上抓取数据。爬虫通过模拟浏览器的行为#xff0c;访问网页并…1基本理论 1.1概念体系 网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等可以按照我们设置的规则自动化爬取网络上的信息这些规则被称为爬虫算法。是一种自动化程序用于从互联网上抓取数据。爬虫通过模拟浏览器的行为访问网页并提取信息。这些信息可以是结构化的数据如表格数据也可以是非结构化的文本。爬虫任务的执行流程通常包括发送HTTP请求、解析HTML文档、提取所需数据等步骤。 1.2技术体系 1请求库:用于向目标网站发送HTTP请求。常用的请求库包括requests、httplib、urllib等。这些库可以帮助我们模拟浏览器行为发送GET、POST等请求并处理响应内容。 2.解析库用于解析HTML或XML文档提取出我们需要的数据。常用的解析库包括BeautifulSoup、lxml、pyquery等。这些库可以帮助我们根据HTML文档的结构和标签提取出我们需要的数据。 3.存储库用于将爬取到的数据存储到本地或数据库中。常用的存储库包括sqlite3、mysql-connector-python、pymongo等。这些库可以帮助我们将数据存储到关系型数据库或非关系型数据库中以便后续分析和利用。 2.代码编写流程 代码编写流程 代码共分为4部分1网页数据抓包。2json数据地址规律3json数据解析数据存储。 2.1.网页抓包与地址规律 通过网页抓包解析到json数据。 加入该网页红色线框中的数据是要爬取的数据 网页地址https://app.zhuanzhuan.com/zzopen/sellbook/pcHomePageList?pageNum1pageSize20cateId2100cateId3100 对网页刷新发现抓包的数据增加如下图 Json数据如下 网页地址 https://app.zhuanzhuan.com/zzopen/sellbook/pcHomePageList?pageNum2pageSize20cateId2100cateId3100 对上面地址分析发现地址中pageNum数值发生改变第一页位数为1第二页位数为2 依次类推。 编写翻页函数 函数中为中pageNum页面地址位数 2.2.页面解析 2.3.网页数据保存 · 3.应用举例 输出结果 通过上面代码测试输出结果为每本书的相关数据利用json查找语法解析json数据将书籍书籍写入excel数据表中 4.编写代码 import requests from openpyxl import Workbook,load_workbook import os import jsonpath import json def wy_text(x):resrequests.get(urlhttps://app.zhuanzhuan.com/zzopen/sellbook/pcHomePageList?pageNum{}pageSize20cateId2100cateId3100.format(x))sssjson.loads(res.text)return sss class Excel_write():def __init__(self):self.excel_file 转转图书信息.xlsxif not os.path.exists(self.excel_file):self.wk Workbook();#创建excel工作薄self.wk.create_sheet(图书信息,0);#sheet表名位置(从0开始)# 默认选择当前活跃选项卡self.wb self.wk[图书信息]self.wb.append([书名,出版社,出版日期,价格]);#横向插入数据self.wk.save(self.excel_file)self.wk_load load_workbook(filenameself.excel_file)self.wb_load self.wk_load[图书信息]def nr1(self,text):nr_text[]p1jsonpath.jsonpath(text,$.respData..title)p3jsonpath.jsonpath(text,$.respData..publisher)p4jsonpath.jsonpath(text,$.respData..pubdate)p5jsonpath.jsonpath(text,$.respData)for i in range(len(p1)):nr_text.append([p1[i],p3[i],p4[i],p5[0][i][sellPrice]/100])return nr_textdef nr_write(self):for i in range(1,40):swy_text(i)#类中调用外部函数listExcel_write().nr1(s)#类中函数相互调用注意外部或内部self参数都不用加for k in range(len(list)):self.wb_load.append(list[k])self.wk_load.save(filenameself.excel_file) if __name____main__: Excel_write().nr_write()运行结果
http://www.w-s-a.com/news/257472/

相关文章:

  • 网站app建设用discuz做的手机网站
  • vs 2008网站做安装包公众号登录超时
  • 银川做网站推广wordpress dux会员中心
  • 双辽做网站wordpress怎么写html代码
  • 建站公司哪家好 知道万维科技西安都有哪些公司
  • 设计网站官网入口佛山 品牌设计
  • 专用网站建设wordpress mega
  • 网站建设与优化推广方案内容网站整站下载带数据库后台的方法
  • 做网站PAAS系统外链是什么意思
  • 网页设计专业设计课程googleseo排名公司
  • 网站百度百科那些免费网站可以做国外贸易
  • 做视频的网站有哪些南京计算机培训机构哪个最好
  • ppt做视频 模板下载网站商业街网站建设方案
  • 佛山网站定制开发星光影视园网站建设案例
  • wordpress子站点商务网页设计与制作微课版答案
  • 山东省住房城乡和建设厅网站软件开发主要几个步骤
  • 可以接项目做的网站网站源码php
  • 杭州广众建设工程有限公司网站网页游戏人气排行榜
  • 上海网站开发建设最简单的网站代码
  • 东莞做网站建设免费网站建设案例
  • 莱州建设局网站wordpress的主题下载地址
  • 二级网站域名长沙企业关键词优化服务质量
  • 在家有电脑怎么做网站wordpress 入门主题
  • 什邡建设局网站sem推广是什么意思
  • 西安分类信息网站网站敏感关键词
  • 黑彩网站怎么做建设网站费用分析
  • 网站关键词选取的步骤和方法小程序商城哪家好排行榜
  • 儿童产品网站建设网站建设优化排名推广
  • 做网站的硬件无锡招标网官方网站
  • 做推送好用的网站合肥网站推广培训