当前位置: 首页 > news >正文

该网站为悬挂备案号芜湖网络

该网站为悬挂备案号,芜湖网络,自己做网站2008R2好还是win7,wordpress 仿煎蛋主题 无聊图爬虫案例—根据四大名著书名抓取并存储为文本文件 诗词名句网#xff1a;https://www.shicimingju.com 目标#xff1a;输入四大名著的书名#xff0c;抓取名著的全部内容#xff0c;包括书名#xff0c;作者#xff0c;年代及各章节内容 诗词名句网主页如下图#x…爬虫案例—根据四大名著书名抓取并存储为文本文件 诗词名句网https://www.shicimingju.com 目标输入四大名著的书名抓取名著的全部内容包括书名作者年代及各章节内容 诗词名句网主页如下图 今天的案例是抓取古籍板块下的四大名著如下图 案例源码如下 import time import requests from bs4 import BeautifulSoup import randomheaders {user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36, }# 获取响应页面,并返回实例化soup def get_soup(html_url):res requests.get(html_url, headersheaders)res.encoding res.apparent_encodinghtml res.content.decode()soup BeautifulSoup(html, lxml)return soup# 返回名著的书名及对应的网址字典 def get_book_url(page_url):book_url_dic {}soup get_soup(page_url)div_tag soup.find(class_card booknark_card)title_lst div_tag.ul.find_all(nameli)for title in title_lst:book_url_dic[title.a.text.strip(《》)] https://www.shicimingju.com title.a[href]return book_url_dic# 输出每一章节内容 def get_chapter_content(chapter_url):chapter_content_lst []chapter_soup get_soup(chapter_url)div_chapter chapter_soup.find(class_card bookmark-list)chapter_content div_chapter.find_all(p)for p_content in chapter_content:chapter_content_lst.append(p_content.text)time.sleep(random.randint(1, 3))return chapter_content_lst# 主程序 if __name__ __main__:# 古籍板块链接gj_url https://www.shicimingju.com/bookurl_dic get_book_url(gj_url)mz_name input(请输入四大名著名称 )mz_url url_dic[mz_name]soup get_soup(mz_url)abbr_tag soup.find(class_card bookmark-list)book_name abbr_tag.h1.textf open(f{book_name}.txt, a, encodingutf-8)f.write(书名book_name\n)print(名著名称, book_name, end\n)p_lst abbr_tag.find_all(p)for p in p_lst:f.write(p.text\n)mulu_lst soup.find_all(class_book-mulu)book_ul mulu_lst[0].ulbook_li book_ul.find_all(nameli)for bl in book_li:print(\t\t, bl.text)chapter_url https://www.shicimingju.com bl.a[href]f.write(bl.text\n)f.write(.join(get_chapter_content(chapter_url))\n)f.close()
http://www.w-s-a.com/news/112912/

相关文章:

  • 网站图片alt属性wordpress 自定义栏目 调用
  • 怎样建网站最快广州网站建设工程
  • iis7 网站404错误信息12306网站很难做吗
  • 网站建设600元包公司设计图片大全
  • 网站建设费用怎么做分录做校园网站代码
  • 网站改版做重定向福州网站建设思企
  • 网站建设全流程企业形象网站开发业务范畴
  • wordpress无法查看站点西安优秀高端网站建设服务商
  • 固始网站制作熟悉免费的网络营销方式
  • 做网站到a5卖站赚钱搜索引擎优化代理
  • 沈阳网站建设包括win10优化
  • 做百度手机网站点击软网站seo优化徐州百度网络
  • 徐州专业网站制作标志设计作业
  • 自己可以做网站空间吗海天建设集团有限公司网站
  • 教学督导网站建设报告aspcms网站图片不显示
  • 网站开发公司成本是什么门户网站宣传方案
  • 上海 企业网站建设网站怎么开通微信支付
  • 饮料网站建设wordpress主题猫
  • 网站建设需要编码不有没有专门的网站做品牌授权的
  • 做爰在线网站免费空间列表
  • 网站外链建设工作总结郑州网站建设扌汉狮网络
  • 建设企业网站的需要多长时间网站使用说明书模板
  • 建网站首页图片哪里找263企业邮箱网页版登录
  • 盐城网站建设电话高端定制网站
  • 成都网站seo技术施工企业样板先行制度
  • 高端网站建设电话河北建筑工程信息网站
  • 亲 怎么给一个网站做备份财务系统有哪些软件
  • wordpress重新手机优化专家下载
  • 怎样把网站做成软件设计工作室怎么接单
  • html网站设计实例代码重庆多个区划定风险区