当前位置: 首页 > news >正文

网站建设 jz.woonlasp.net网站开发步骤

网站建设 jz.woonl,asp.net网站开发步骤,网络品牌推广是什么意思,建设网站的风险61基本理论 1.1概念体系 网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等#xff0c;可以按照我们设置的规则自动化爬取网络上的信息#xff0c;这些规则被称为爬虫算法。是一种自动化程序#xff0c;用于从互联网上抓取数据。爬虫通过模拟浏览器的行为#xff0c;访问网页并…1基本理论 1.1概念体系 网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等可以按照我们设置的规则自动化爬取网络上的信息这些规则被称为爬虫算法。是一种自动化程序用于从互联网上抓取数据。爬虫通过模拟浏览器的行为访问网页并提取信息。这些信息可以是结构化的数据如表格数据也可以是非结构化的文本。爬虫任务的执行流程通常包括发送HTTP请求、解析HTML文档、提取所需数据等步骤。 1.2技术体系 1请求库:用于向目标网站发送HTTP请求。常用的请求库包括requests、httplib、urllib等。这些库可以帮助我们模拟浏览器行为发送GET、POST等请求并处理响应内容。 2.解析库用于解析HTML或XML文档提取出我们需要的数据。常用的解析库包括BeautifulSoup、lxml、pyquery等。这些库可以帮助我们根据HTML文档的结构和标签提取出我们需要的数据。 3.存储库用于将爬取到的数据存储到本地或数据库中。常用的存储库包括sqlite3、mysql-connector-python、pymongo等。这些库可以帮助我们将数据存储到关系型数据库或非关系型数据库中以便后续分析和利用。 2.代码编写流程 代码编写流程 代码共分为4部分1网页数据抓包。2json数据地址规律3json数据解析数据存储。 2.1.网页抓包与地址规律 通过网页抓包解析到json数据。 加入该网页红色线框中的数据是要爬取的数据 网页地址https://app.zhuanzhuan.com/zzopen/sellbook/pcHomePageList?pageNum1pageSize20cateId2100cateId3100 对网页刷新发现抓包的数据增加如下图 Json数据如下 网页地址 https://app.zhuanzhuan.com/zzopen/sellbook/pcHomePageList?pageNum2pageSize20cateId2100cateId3100 对上面地址分析发现地址中pageNum数值发生改变第一页位数为1第二页位数为2 依次类推。 编写翻页函数 函数中为中pageNum页面地址位数 2.2.页面解析 2.3.网页数据保存 · 3.应用举例 输出结果 通过上面代码测试输出结果为每本书的相关数据利用json查找语法解析json数据将书籍书籍写入excel数据表中 4.编写代码 import requests from openpyxl import Workbook,load_workbook import os import jsonpath import json def wy_text(x):resrequests.get(urlhttps://app.zhuanzhuan.com/zzopen/sellbook/pcHomePageList?pageNum{}pageSize20cateId2100cateId3100.format(x))sssjson.loads(res.text)return sss class Excel_write():def __init__(self):self.excel_file 转转图书信息.xlsxif not os.path.exists(self.excel_file):self.wk Workbook();#创建excel工作薄self.wk.create_sheet(图书信息,0);#sheet表名位置(从0开始)# 默认选择当前活跃选项卡self.wb self.wk[图书信息]self.wb.append([书名,出版社,出版日期,价格]);#横向插入数据self.wk.save(self.excel_file)self.wk_load load_workbook(filenameself.excel_file)self.wb_load self.wk_load[图书信息]def nr1(self,text):nr_text[]p1jsonpath.jsonpath(text,$.respData..title)p3jsonpath.jsonpath(text,$.respData..publisher)p4jsonpath.jsonpath(text,$.respData..pubdate)p5jsonpath.jsonpath(text,$.respData)for i in range(len(p1)):nr_text.append([p1[i],p3[i],p4[i],p5[0][i][sellPrice]/100])return nr_textdef nr_write(self):for i in range(1,40):swy_text(i)#类中调用外部函数listExcel_write().nr1(s)#类中函数相互调用注意外部或内部self参数都不用加for k in range(len(list)):self.wb_load.append(list[k])self.wk_load.save(filenameself.excel_file) if __name____main__: Excel_write().nr_write()运行结果
http://www.w-s-a.com/news/260182/

相关文章:

  • 地方网站做外卖专业做互联网招聘的网站有哪些
  • 网站推广公司兴田德润紧急网页升级紧急通知
  • 厦门做网站哪家强企业网站网页设计的步骤
  • 普拓网站建设济南行业网站建设
  • 燕郊 网站开发网站里的地图定位怎么做
  • 门户网站建设招标互联网创业项目概述
  • 用什么做网站比较好市场调研公司是做什么的
  • 电商网站充值消费系统绍兴网站优化
  • 深圳网站建设公司联虚拟币交易网站开发
  • 专业网站设计建设公司抖音代运营公司排名前十强
  • 做网站架构肃北蒙古族自治县建设局网站
  • 推广网站怎么建经济研究院网站建设方案
  • 网站建设商家淘宝客自建网站做还是用微信qq做
  • django做网站效率高吗涉县移动网站建设报价
  • 做外贸网站注册什么邮箱能够做渗透的网站
  • 购物网站 怎么做织梦网站会员功能
  • 北京市网站开发公司郑州联通网站备案
  • 温岭专业营销型网站建设地址wordpress小程序怎么不用认证审核
  • 网站建设主体设计要求微信公众号缴费
  • 网站建设的税率WordPress多用户建站
  • 专业门户网站的规划与建设网络培训
  • 东莞汽车总站停止营业crm管理系统在线使用
  • 深圳网站建设公司哪个网络优化是做什么的
  • 大连地区做网站自己怎么做电影网站
  • 成都APP,微网站开发手机要访问国外网站如何做
  • 网站app建设用discuz做的手机网站
  • vs 2008网站做安装包公众号登录超时
  • 银川做网站推广wordpress dux会员中心
  • 双辽做网站wordpress怎么写html代码
  • 建站公司哪家好 知道万维科技西安都有哪些公司