当前位置: 首页 > news >正文

免费网络短剧网站霸州网站制作

免费网络短剧网站,霸州网站制作,短视频平台推广方案,怎么样推广一个网站github项目--crawl4ai 输出html输出markdown格式输出结构化数据与BeautifulSoup的对比 crawl4ai github上这个项目#xff0c;没记错的话#xff0c;昨天涨了3000多的star#xff0c;今天又新增2000star。一款抓取和解析工具#xff0c;简单写个demo感受下 这里我们使用cra… github项目--crawl4ai 输出html输出markdown格式输出结构化数据与BeautifulSoup的对比 crawl4ai github上这个项目没记错的话昨天涨了3000多的star今天又新增2000star。一款抓取和解析工具简单写个demo感受下 这里我们使用crawl4ai抓取github每日趋势每天通过邮件发到自己邮箱 输出html async def github_trend_html():async with AsyncWebCrawler(verboseTrue) as crawler:result await crawler.arun(urlhttps://github.com/trending,)assert result.success, github 数据抓取失败return result.cleaned_html输出的还是html但对原始页面做了处理比如移除不相关元素动态元素简化html结构。 输出markdown格式 async def github_trend_md():async with AsyncWebCrawler(verboseTrue) as crawler:result await crawler.arun(urlhttps://github.com/trending,)assert result.success, github 数据抓取失败return result.markdown用md软件打开看一下效果 输出结构化数据 async def github_trend_json():schema {name: Github trending,baseSelector: .Box-row,fields: [{name: repository,selector: .lh-condensed a[href],type: text,},{name: description,selector: p,type: text,},{name: lang,type: text,selector: span[itempropprogrammingLanguage],},{name: stars,type: text,selector: a[href*/stargazers]},{name: today_star,type: text,selector: span.float-sm-right,},],}extraction_strategy JsonCssExtractionStrategy(schema, verboseTrue)async with AsyncWebCrawler(verboseTrue) as crawler:result await crawler.arun(urlhttps://github.com/trending,extraction_strategyextraction_strategy,bypass_cacheTrue,)assert result.success, github 数据抓取失败github_trending_json json.loads(result.extracted_content)for ele in github_trending_json:ele[repository] https://github.com/ .join(ele[repository].split())return github_trending_json与前两种不同的是结构化输出需要通过自定义schema来定义解析的数据结构。控制台按照我们定义的schema输出了标准了JSON数据。将数据放入html模版通过邮件每日发送。看一下邮件显示 与BeautifulSoup的对比 记得第一次用soup的时候对于只用过Java sax解析xml的我来说soup真的太方便了。今天简单测试了下crawl4ai和soup相比 crawl4ai数据采集分析更方便soup需要配合使用request进行网页抓取BeautifulSoup负责html解析html解析有点类似都是通过CSS选择器但crawl4ai通过定义schema解析更方便数据解析方面crawl4ai除了提供了markdown和简化版的html还提供了通过集成OpenAI提取结构化数据的能力(尚未体验)
http://www.w-s-a.com/news/562664/

相关文章:

  • 做软装找图片的网站wordpress 替代
  • 制作网站的后台公众号做视频网站会封吗
  • 广西企业建站邯郸景区网站制作
  • 开发商城网站多少钱城厢区建设局网站
  • 网站外链多的危害天水市建设局网站
  • 网站接入商学交互设计网站
  • 目前最新的网站后台架构技术综述什么网站可以做名片
  • 成都建站长沙做网站美工的公司
  • 湖南省住房与城乡建设厅网站平顶山网站关键词优化
  • 购物网站前台功能模块汕头网站设计电话
  • 网站你懂我意思正能量免费wordpress菜单底部导航代码
  • 一个主机可以建设多少个网站山东高端网站建设
  • 长沙网站建设搭建网络营销做得好的公司
  • 如何做网站的后台管理石家庄seo关键词排名
  • 给自己公司做个网站山东做外贸网站的公司
  • 张家港网站建设培训江苏省建设工程网站系统
  • html个人网站桂林建站
  • 湛江网站优化快速排名wordpress文章页面宽度
  • 自己建网站怎么弄唯品会一家专门做特卖的网站
  • 做文化传播公司网站做搜狗pc网站点
  • 免费的黄冈网站有哪些平台可以聊天呢要查询一个网站在什么公司做的推广怎么查
  • 凡客建站登录入口网站建设先进部门评选标准
  • 响应式设计 手机网站政务中心建设网站
  • 如何做卖衣服的网站网站登录接口怎么做
  • 网站源码下载了属于侵权吗499全包网站建设
  • 怎样创建网站信息平台网络推广官网首页
  • 网站建设的课程网站 逻辑结构
  • 开通企业网站搬瓦工暗转wordpress
  • 成都网站建设有名的公司怎么做出有品牌感的网站
  • 中国网站的建设淘宝数据网站开发