当前位置: 首页 > news >正文

以企业介绍为主做外贸网站好吗泸州免费做网站

以企业介绍为主做外贸网站好吗,泸州免费做网站,wordpress查看自己的评论,西安高端网站介绍 在现代的爬虫技术中#xff0c;Puppeteer 因其强大的功能和灵活性而备受青睐。Puppeteer 是一个用于控制 Chromium 或 Chrome 浏览器的 Node.js 库#xff0c;提供了丰富的 API 接口#xff0c;能够帮助开发者高效地处理动态网页数据。本文将重点讲解 Puppeteer 的 ev… 介绍 在现代的爬虫技术中Puppeteer 因其强大的功能和灵活性而备受青睐。Puppeteer 是一个用于控制 Chromium 或 Chrome 浏览器的 Node.js 库提供了丰富的 API 接口能够帮助开发者高效地处理动态网页数据。本文将重点讲解 Puppeteer 的 evaluate 函数结合代理 IP 技术演示如何采集目标网站如界面新闻上的文章标题和摘要。 界面新闻作为中国具有影响力的原创财经新媒体其市场特点体现在内容聚合开放生产、发力短视频与直播、综合服务功能提升以及助力社会治理意识加强等方面。界面新闻通过开放平台掌握用户数据提升内容生产和传播的精准性同时短视频和直播已成为其内容生产力的重要组成部分增强了新闻报道的即时性。此外界面新闻客户端在版本迭代过程中业务边界不断拓展服务功能愈加凸显逐渐向“新闻政务服务商务”的综合性平台转型。 从新闻热点的角度来看界面新闻客户端中信息内容同质化依旧明显原创优质内容供应不足但重要时政新闻、突发事件能够获得大多数媒体的关注。因此使用 Puppeteer 的 evaluate 函数和代理 IP 技术采集界面新闻的文章标题和摘要时可以更精准地定位到这些热点新闻为用户提供更加丰富和深入的财经新闻内容。同时代理 IP 技术的应用可以有效地规避网站的反爬虫机制提高数据采集的成功率和稳定性。 通过 Puppeteer 的 evaluate 函数开发者可以在页面的上下文中执行 JavaScript 代码从而获取页面中的特定数据如文章标题和摘要。结合代理 IP 技术可以在不同的地理位置模拟用户访问减少被目标网站封禁的风险这对于采集界面新闻这类高质量财经新闻内容尤为重要。通过这种方式可以为界面新闻的用户提供更加丰富和深入的财经新闻内容满足他们对高质量信息的需求。 技术分析 Puppeteer 的 Evaluate 函数 evaluate 是 Puppeteer 的核心函数之一。通过该函数开发者可以在浏览器上下文中执行 JavaScript 代码直接操作 DOM 树从而提取网页中的数据。 核心使用步骤包括 在浏览器中打开页面。使用 page.evaluate 在页面上下文执行自定义脚本获取需要的数据。将数据从浏览器上下文传递到 Node.js 脚本。 代理 IP 的使用 由于频繁的爬虫行为可能会被目标网站检测并封禁 IP 地址因此引入代理 IP 是非常必要的。我们以爬虫代理服务为例通过设置代理服务器的域名、端口、用户名和密码安全稳定地采集网页数据。 实现细节 在代码中我们将使用以下技术和工具 设置代理 IP使用爬虫代理服务。自定义 Cookie 和 User-Agent模拟真实用户行为降低被目标网站封禁的风险。数据存储将提取的文章标题和摘要存储到本地文件中。 以下是完整实现代码。 实现代码 const puppeteer require(puppeteer);// 配置IP代理服务参数 亿牛云爬虫代理 www.16yun.cn const PROXY_HOST PROXY.16yun.cn; // 16yun代理服务器 const PROXY_PORT 12345; // 端口 const PROXY_USERNAME 代理用户名; // 例如yourUsername const PROXY_PASSWORD 代理密码; // 例如yourPassword// 配置目标网站和输出文件 const TARGET_URL https://www.jiemian.com; const OUTPUT_FILE articles.json;(async () {// 启动浏览器并设置代理const browser await puppeteer.launch({headless: true, // 无头模式args: [--proxy-serverhttp://${PROXY_HOST}:${PROXY_PORT} // 配置代理]});const page await browser.newPage();// 设置代理的认证信息await page.authenticate({username: PROXY_USERNAME,password: PROXY_PASSWORD});// 设置 User-Agent 和 Cookieawait page.setUserAgent(Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36);await page.setCookie({name: exampleCookie,value: exampleValue,domain: .jiemian.com});try {// 打开目标页面await page.goto(TARGET_URL, { waitUntil: networkidle2 });// 使用 evaluate 函数提取数据const articles await page.evaluate(() {const data [];const articleElements document.querySelectorAll(.news-item); // 根据界面新闻的 DOM 结构选择器articleElements.forEach((item) {const title item.querySelector(.news-item-title)?.innerText?.trim();const summary item.querySelector(.news-item-summary)?.innerText?.trim();if (title summary) {data.push({ title, summary });}});return data;});// 将数据写入文件const fs require(fs);fs.writeFileSync(OUTPUT_FILE, JSON.stringify(articles, null, 2), utf-8);console.log(数据已成功保存到 ${OUTPUT_FILE});} catch (error) {console.error(爬取过程中发生错误, error);} finally {// 关闭浏览器await browser.close();} })();结论 本文详细介绍了如何利用 Puppeteer 的 evaluate 函数操作网页数据结合代理 IP 和用户模拟技术实现了从界面新闻上采集文章标题和摘要的功能。通过这种方法开发者不仅可以高效地处理动态网页还能有效规避 IP 限制等问题。 如果您需要更稳定的采集体验建议搭配高质量的代理服务如爬虫代理确保采集任务的高效完成。未来随着爬虫技术和反爬策略的不断发展我们也应积极学习并应用新技术提升数据采集的能力和效率。
http://www.w-s-a.com/news/624115/

相关文章:

  • 建设厅报名网站京东网站的建设与发展前景
  • 金寨县住房和城乡建设部网站网页作业怎么做一个网站
  • 做ppt模板网站有哪些内容wap是什么意思卡老师
  • 网站建设一定要域名吗网站后台关键词设置
  • 标书制作公司网站坪山网站建设哪家便宜
  • 防止做网站的人修改数值门户网站架构
  • 电子项目外包网站考二建需要什么学历和专业
  • 做网站推广引流效果好吗电商推广技巧
  • 亦庄网站建设价格广州网站推广服务
  • 十大免费ppt网站下载重庆在线高校平台登录
  • 做环保网站案例百度seo教程
  • 体育用品网站模板网站建设话术
  • 潍坊网站建设服务商做网站多久能盈利
  • 嘉定区做网站房产信息查询官网
  • 网站直播间 是怎么做的唐山论坛建站模板
  • 深圳洲聚网站建设wordpress 泛解析
  • 五金东莞网站建设技术支持wordpress 添加模板
  • 网站申请专利春节网页设计素材
  • 进网站备案md风格的wordpress主题
  • 如何建站网站十大免费建站app
  • 工作号做文案素材的网站晋城网站设计人
  • 建设部网站官网 施工许可怎样建网站 需要
  • 什么网站都能打开的浏览器同城小程序怎么推广
  • 在电脑上怎么做网站网址seo分析
  • 石家庄做网站网络公司电子商务营销推广
  • 网站开发 前端专做婚礼logo的网站
  • 同创企业网站建设拖拽建设网站源码
  • wordpress调用网站标题网站页面排版
  • 哈尔滨营销网站建设电子商城网站开发要多少钱
  • 免费织梦导航网站模板下载地址自己建站网站