当前位置: 首页 > news >正文

dw成品网站成品视频教学wordpress正在建设中

dw成品网站成品视频教学,wordpress正在建设中,建设银行网站模板,做网站的创业计划书一个比较基础且常见的爬虫#xff0c;写下来用于记录和巩固相关知识。 一、前置条件 本项目采用scrapy框架进行爬取#xff0c;需要提前安装 pip install scrapy# 国内镜像 pip install scrapy -i https://pypi.douban.com/simple 由于需要保存数据到数据库#xff0c;因…一个比较基础且常见的爬虫写下来用于记录和巩固相关知识。 一、前置条件 本项目采用scrapy框架进行爬取需要提前安装 pip install scrapy# 国内镜像 pip install scrapy -i https://pypi.douban.com/simple 由于需要保存数据到数据库因此需要下载pymysql进行数据库相关的操作 pip install pymysql# 国内镜像 pip install pymysql -i https://pypi.douban.com/simple 同时在数据库中创立对应的表 create database spider01 charset utf8;use spider01;# 这里简单创建name和src create table book(id int primary key auto_increment,name varchar(188),src varchar(188) ); 二、项目创建 在终端进入准备存放项目的文件夹中 1、创建项目 scrapy startproject scrapy_book 创建成功后结构如下 2、跳转到spiders路径 cd scrapy_book\scrapy_book\spiders 3、生成爬虫文件 由于涉及链接的提取这里生成CrawlSpider文件 scrapy genspider -t crawl read Www.dushu.com 注意先将第11行中follow的值改为False否则会跟随从当前页面提取的链接继续爬取避免过度下载 4、项目结构说明 接下来我们一共要修改4个文件完成爬取功能 read.py: 自定义的爬虫文件完成爬取的功能items.py 定义数据结构的地方是一个继承自scrapy.Item的类pipelines.py 管道文件里面只有一个类用于处理下载数据的后续处理setings.py 配置文件 比如是否遵循robots协议User-Agent协议 三、网页分析 1、图书分析 读书网主页 在读书网中随便选取一个分类这里以外国小说为例进行分析 这里我们简单爬取它的图片和书名当然也可扩展 使用xpath语法对第一页的图片进行分析 由上图可以知道 书名//div[classbookslist]//img/alt 书图片地址//div[classbookslist]//img/data-original 不是src属性是因为页面图片使用懒加载 2、页码分析 第一页外国小说 - 读书网|dushu.com 或 https://www.dushu.com/book/1176_1.html 第二页外国小说 - 读书网|dushu.com 第三页外国小说 - 读书网|dushu.com 发现规律满足表达式r/book/1176_\d\.html 四、项目完成 1、修改items.py文件 自己定义下载数据的结构 # Define here the models for your scraped items # # See documentation in: # https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass ScrapyBookItem(scrapy.Item):# define the fields for your item here like:# name scrapy.Field()# 书名name scrapy.Field()# 图片地址src scrapy.Field() 2、修改settings.py文件 将第65行的ITEM_PIPELINES的注释去掉并在下面新增自己数据库的相关配置 3、修改pipnelines.py文件 进行下载数据的相关处理 # Define your item pipelines here # # Dont forget to add your pipeline to the ITEM_PIPELINES setting # See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interface from itemadapter import ItemAdapter# 加载settings文件 from scrapy.utils.project import get_project_settings import pymysqlclass ScrapyBookPipeline:# 最开始执行def open_spider(self,spider):settings get_project_settings()# 获取配置信息self.host settings[DB_HOST]self.port settings[DB_PORT]self.user settings[DB_USER]self.password settings[DB_PASSWROD]self.name settings[DB_NAME]self.charset settings[DB_CHARSET]self.connect()def connect(self):self.conn pymysql.connect(hostself.host,portself.port,userself.user,passwordself.password,dbself.name,charsetself.charset)self.cursor self.conn.cursor()# 执行中def process_item(self, item, spider):# 根据自己的表结构进行修改我的是book表sql insert into book(name,src) values({},{}).format(item[name], item[src])# 执行sql语句self.cursor.execute(sql)# 提交self.conn.commit()# 结尾执行def close_spider(self, spider):self.cursor.close()self.conn.close() 4、修改read.py import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule# 导入时可能有下划线报错是编译器问题可以正常使用 from scrapy_book.items import ScrapyBookItemclass ReadSpider(CrawlSpider):name readallowed_domains [www.dushu.com]# 改为第一页的网址,这样都能满足allow的规则不遗漏start_urls [https://www.dushu.com/book/1176_1.html]# allow属性提取指定链接下面是正则表达式 callback回调函数 follow是否跟进就是按照提取连接规则进行提取这里选择Falserules (Rule(LinkExtractor(allowr/book/1176_\d\.html), callbackparse_item, followFalse),)def parse_item(self, response):item {}# item[domain_id] response.xpath(//input[idsid]/value).get()# item[name] response.xpath(//div[idname]).get()# item[description] response.xpath(//div[iddescription]).get()# 获取当前页面的所有图片img_list response.xpath(//div[classbookslist]//img)for img in img_list:name img.xpath(./alt).extract_first()src img.xpath(./data-original).extract_first()book ScrapyBookItem(namename, srcsrc)# 进入pipelines管道进行下载yield book5、下载 终端进入spiders文件夹运行命令scrapy crawl read 其中read是spiders文件夹下read.py中name的值 6、结果 一共下载了40(每一页的数据) * 13(页) 520条数据 将read.py中的follow改为True即可下载该类书籍的全部数据总共有100页如果用流量的话谨慎下载预防话费不足。 5、结语 这个爬虫项目应该可以适用于挺多场景的不是特别多 跟着写一下也没啥坏处。如果有代码的需求的话日后会把项目的代码地址给出。因为自己学爬虫没多久记录一下梳理下思路也可以为以后有需要的时候做参考。
http://www.w-s-a.com/news/727552/

相关文章:

  • 东莞seo建站排名全包网站
  • 网站建设的基本步骤有哪些软件商店下载官方
  • 网站建设开发报告论文hao123上网从这里开始官方
  • 阿里云建网站费用徐州房产网
  • 网站统计分析平台做企业礼品的网站
  • 做可视化图表的网站wordpress批量导入tag
  • txt怎么做网站网站的链接结构包括
  • 适合平面设计师的网站网络营销专员的就业前景
  • 好订单网服装加工接单谷歌seo网站推广怎么做
  • seo泛站群外贸网站建设团队
  • 网站免费维护建立网站国家城乡建设部投诉网站
  • 企业网站必须备案吗wordpress导入数据库依然无法链接
  • 浅谈高校网站群的建设网站不支持m.域名
  • 和平网站建设公司做实验教学视频的网站
  • 音乐网站源码带手机版WordPress菜单调用不出
  • 昆明网站设计都需要设计什么网络推广岗位职责和任职要求
  • 国外公司网站模板网站建设公司选择意见书
  • 如何创建一个网站卖东西郑州 网站建设公司
  • 石景山郑州阳网站建设南京网站搜索引擎优化
  • 一个网站需要哪些备案书店网站建设策划书总结
  • 网站建设的重点是什么注册网站空间
  • 网站公司企业宗旨我的网站 dedecms
  • 沧州网站优化做详情图的网站
  • 中国建设银行公积金网站wordpress表单 post
  • 找权重高的网站方法wordpress视频网站上传视频
  • 营销型网站架构师迁移wordpress500错误
  • 做网站还是博客由()承担
  • wordpress 导购站模板中国最新军事新闻直播83军
  • 公众号h5网站开发wordpress文章主图
  • ps怎么艺术字字体设计网站我想自己做网站