当前位置: 首页 > news >正文

芜湖市建设投资有限公司网站凡科的模板做网站

芜湖市建设投资有限公司网站,凡科的模板做网站,东莞人才网58,全球著名科技网站目录 1. 建立 Web 网站 2. 编写 Scrapy 爬虫程序 为了说明 scrapy 爬虫爬取网站多个网页数据的过程#xff0c;用 Flask 搭建一个小型的 Web 网站。 1. 建立 Web 网站 #xff08;1#xff09;books.html !DOCTYPE html html langen h…       目录 1. 建立 Web 网站 2. 编写 Scrapy 爬虫程序 为了说明 scrapy 爬虫爬取网站多个网页数据的过程用 Flask 搭建一个小型的 Web 网站。 1. 建立 Web 网站 1books.html !DOCTYPE html html langen headmeta charsetUTF-8titlebooks/title /head bodyh3计算机/h3ullia hrefdatabase.html数据库/a/lilia hrefprogram.html程序设计/a/lilia hrefnetwork.html计算机网络/a/li/ul /body /html 2databse.html !DOCTYPE html html langen headmeta charsetUTF-8titledatabase/title /head bodyh3数据库/h3ullia hrefmysql.htmlMySQL数据库/a/li/ula hrefbooks.htmlHome/a /body /html 3program.html !DOCTYPE html html langen headmeta charsetUTF-8titleprogram/title /head bodyh3程序设计/h3ullia hrefpython.htmlPython程序设计/a/lilia hrefjava.htmlJava程序设计/a/li/ula hrefbooks.htmlHome/a /body /html 4network.html !DOCTYPE html html langen headmeta charsetUTF-8titlenetwork/title /head bodyh3计算机网络/h3a hrefbooks.htmlHome/a /body /html 5mysql.html !DOCTYPE html html langen headmeta charsetUTF-8titlemysql/title /head bodyh3MySQL数据库/h3a hrefbooks.htmlHome/a /body /html 6python.html !DOCTYPE html html langen headmeta charsetUTF-8titlepython/title /head bodyh3Python程序设计/h3a hrefbooks.htmlHome/a /body /html 7java.html !DOCTYPE html html langen headmeta charsetUTF-8titlejava/title /head bodyh3Java程序设计/h3a hrefbooks.htmlHome/a /body /html 【问题】编写一个爬虫程序爬取这个网站所有的页面的h3标题文字。 服务器程序 server.py 如下 import flask import osapp flask.Flask(__name__)def getFile(fileName):data bfileName web_html/ fileName # 将7个html页面放到web_html目录下做了个路径拼接if os.path.exists(fileName):fobj open(fileName, rb)data fobj.read()fobj.close()return dataapp.route(/) def index():return getFile(books.html)app.route(/section) def process(section):data if section ! :data getFile(section)return dataif __name__ __main__:app.run()2. 编写 Scrapy 爬虫程序 仍然使用4.1节中的爬虫程序项目重新编写MySpider.py程序 爬虫程序 MySpider.py 如下 import scrapyclass MySpider(scrapy.Spider):name mySpiderdef start_requests(self):url http://127.0.0.1:5000yield scrapy.Request(urlurl, callbackself.parse)# 函数start_requests可以用start_urls替换# start_urls [http://127.0.0.1:5000]def parse(self, response, **kwargs):try:print(response.url)data response.body.decode()selector scrapy.Selector(textdata)print(selector.xpath(//h3/text()).extract_first())links selector.xpath(//a/href).extract()for link in links:url response.urljoin(link)yield scrapy.Request(urlurl, callbackself.parse)except Exception as err:print(err)开启 服务器server.py 执行run.py如下 http://127.0.0.1:5000 计算机 http://127.0.0.1:5000/network.html 计算机网络 http://127.0.0.1:5000/program.html 程序设计 http://127.0.0.1:5000/database.html 数据库 http://127.0.0.1:5000/mysql.html MySQL数据库 http://127.0.0.1:5000/java.html Java程序设计 http://127.0.0.1:5000/books.html 计算机 http://127.0.0.1:5000/python.html Python程序设计 scrapy 自动筛选已经访问过的网站我们来分析程序的执行过程 (1)     start_urls[http://127.0.0.1:5000] 这是入口地址访问这个地址成功后会回调parse函数 (2)     def parse(self, response): 这是回调函数该函数的response对象包含了网站返回的信息 (3)     dataresponse.body.decode()           selectorscrapy.Selector(textdata) 网站返回的response.body的二进制数据要decode转为文本然后建立Selector对象 (4) print(selector.xpath(//h3/text()).extract_first()) 获取网页中的h3标题的文本这就是要爬取的数据为了简单起见这个数据只有一项 (5) linksselector.xpath(//a/href).extract() 获取所有的a href...链接的 href值组成links列表 (6) for link in links:                     urlresponse.urljoin(link)                        yield scrapy.Request(urlurl,callbackself.parse) 访问links的每个link通过urljoin函数与response.url地址组合成完整的 url地址再次建立Request对象回调函数仍然为parse即这个parse函数会被递归调用。其中使用了yield语句返回每个Request对象这是 scrapy程序的要求。
http://www.w-s-a.com/news/6279/

相关文章:

  • 免费网站建设无广告网站开发 华景新城
  • 湖州网站制作报价西安网站开发有哪些公司
  • google 浏览器开源seo软件
  • 网站空间是什么意思自己怎样建设网站
  • 国外家装设计网站如何做软件开发
  • 凡科建站登录官网当当网网站建设策划书
  • 网站百度屏蔽关键词杭州排名优化公司
  • h5响应式网站模板下载wordpress鼠标指针
  • 摄影作品投稿网站目前最好的引流推广方法
  • 资源站源码永久dede网站搬家 空间转移的方法
  • 网站建设销售的技巧话语it培训机构
  • 自建本地网站服务器wordpress南充房产网最新楼盘最近房价
  • 郑州代做网站天津哪里能做网站
  • 网站如何做排名网站建设项目的工作分解
  • 洛阳网络建站公司网站开发主流语言
  • 广州各区正在进一步优化以下措施seo值是什么意思
  • 滨州建网站公司京东云 wordpress
  • 网站视频背景怎么做免费的网络推广有哪些
  • 申请网站怎样申请广西壮族自治区专升本业务系统
  • 写作网站哪个网站做ic外单好
  • 苏州和城乡建设局网站撸撸撸做最好的导航网站
  • 网站被同行抄袭怎么办深圳中装建设集团
  • 建站及推广瓦房店 网站建设
  • 怎么查网站是在哪里备案的广州电力建设有限公司网站
  • 做网站自己申请域名还是对方wordpress管理地址
  • 专门做二手书网站或appwordpress首页显示特定分类文章
  • 无锡网站设计厂家一建十个专业含金量排名
  • 网站刷链接怎么做成都高度网站技术建设公司
  • flash网站模板怎么用xml网站地图生成
  • 英文网站优化群晖wordpress中文