当前位置: 首页 > news >正文

移动外贸网站建设天津大学新校区建设网站

移动外贸网站建设,天津大学新校区建设网站,wordpress 主题 底部美化,wordpress首页不要全文一、python爬虫基础-爬虫简介 1、现实生活中实际爬虫有哪些#xff1f; 2、什么是网络爬虫#xff1f; 3、什么是通用爬虫和聚焦爬虫#xff1f; 4、为什么要用python写爬虫程序 5、环境和工具 二、python爬虫基础-http协议和chrome抓包工具 1、什么是http和https协议…一、python爬虫基础-爬虫简介 1、现实生活中实际爬虫有哪些 2、什么是网络爬虫 3、什么是通用爬虫和聚焦爬虫 4、为什么要用python写爬虫程序 5、环境和工具 二、python爬虫基础-http协议和chrome抓包工具 1、什么是http和https协议 2、http请求过程 3、url详解 4、常用的请求方法: 5、请求头常见参数: 6、常见响应状态码: 7、浏览器抓包工具 一、python爬虫基础-爬虫简介 1、现实生活中实际爬虫有哪些 1搜索引擎百度、谷歌、360 2购物助手可以自动查看历史价格通过爬虫实现爬取电商平台价格数据。 3数据分析与研究根据爬虫程序爬取数据并对数据进行分析。 4抢票软件 2、什么是网络爬虫 爬虫是一个模拟人类请求网站行为的程序、可以自动请求网页并将数据抓取出来然后使用一定的规则把有用的数据筛选出来。 3、什么是通用爬虫和聚焦爬虫 通用爬虫‌General Purpose Web Crawler 或 Scalable Web Crawler的目标是覆盖整个互联网或尽可能广泛的网络空间进行数据抓取。它们主要用于搜索引擎如Baidu、Google和Yahoo目的是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。通用爬虫的爬行范围和数量巨大通常采用并行工作方式但需要较长时间才能刷新一次页面‌。 ‌聚焦爬虫‌Focused Crawler 或 Topical Crawler则是选择性地爬行那些与预先定义好的主题相关的页面。与通用爬虫相比聚焦爬虫只需要爬行与主题相关的页面从而极大地节省了硬件和网络资源保存的页面数量少且更新快能够很好地满足特定人群对特定领域信息的需求‌。 4、为什么要用python写爬虫程序 1PHP:PHP是世界是最好的语言但他天生不是做这个的而且对多线程、异步支持不是很好并发处理能力。爬虫是工具性程序对速度和效率要求比较高。 2Java生态圈很完善是Python爬虫最大的竞争对手。但是Java语言本身很笨重代码量很大。重构成本比较高任何修改会导致代码大量改动。爬虫要经常修改采集代码。 3C/C:运行效率是无敌的。但是学习和开发成本高。写个小爬虫程序可能要大半天时间。 4Python:语法优美、代码简洁、开发效率高、支持的模块多。相关的HTTP请家模块和HTML解析模块非常丰富。还有Scrapy和Scrapy-redls框架让我们开发肥虫变得异常简单。 5、环境和工具 1开发环境python3以上 2使用工具Pycharm 3虚拟环境 Virtualenv/Virtualenvwrapper 二、python爬虫基础-http协议和chrome抓包工具 1、什么是http和https协议 HTTP协议全程是HyperText Transfer Protocol,即超文本传输协议是一种发布和接收HTML的方法。服务端口号80。 HTTPS协议是http协议的加密版本在HTTP下加入了ssl层服务端口号是443端口。 2、http请求过程 1当用户在浏览器的地址栏中输入一个URL并按回车键之后浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为Get和Post两种方法。 2当我们在浏览器输入URL http://www.baidu.com 的时候浏览器发送一个Request请求去获取 http://www.baidu.com的html文件服务器把Response文件对象发送回给浏览器。 3浏览器分析Response中的 HTML发现其中引用了很多其他文件比如images文件CSS文件JS文件。浏览器会自动再次发送Request请求去获取图片CSS文件或者JS文件。 4)当所有的文件都下载成功后网页会根据HTML语法结构完整的显示出来了。 3、url详解 URL是UniforF Resource Locator 的简写统一资源定位符。 一个 URL 由以下几部分组成: scheme://host:port/path/?query-stringxxx#anchor scheme:代表的是访问的协议一般为http或者 https以及 ftp 等。 host:主机名域名比如www.baidu.com。 port:端口号。当你访问一个网站的时候浏览器默认使用80端口。 path:查找路径。比如:www.baidu.com/trending/now后面的trending/now 就是 path 。 query-string:查询字符串比如:www.baidu,con/s?wd-python后面的 wd-python 就是查询字符串。如果查询多个参数使用进行拼接。 anchor:锚点后台一般不用管前端用来做页面定位的。 在浏览器中请求一个 url浏览器会对这个url进行一个编码。除英文字母数字和部分符号外其他的全部使用百分号十六进制码值进行编码。 4、常用的请求方法: 在 Http 协议中定义了八种请求方法。这里介绍两种常用的请求方法分别是get 请求和 post 请求。 1set请求:一般情况下只从服务器获取数据下来并不会对服务器资源产生任何影响的时候会使用 set 请求。 2post 请求:向服务器发送数据(登录)、上传文件等会对服务器资源产生影响的时候会使用 post 请求。 以上是在网站开发中常用的两种方法。并且一般情况下都会遵循使用的原则。但是有的网站和服务器为了做反爬虫机制也经常会不按常理出牌有可能一个应该使用get方法的请求就一定要改成post请求这个要视情况而定。 5、请求头常见参数: 在 http 协议中向服务器发送一个请求数据分为三部分第一个是把数据放在url中第二个是把数据放在 body 中(在 post 请求中)第三个就是把数据放在 head中。这里介绍在网络虫中经常会用到的一些请求头参数: 1Uer-Agent浏览器的名称。这个在网络爬虫中经常会被使用到。请求一个网页的时候服务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。如果我们是通过爬虫发送请求那么我们的user-Agent就是python 这对于那些有反爬虫机制的网站来说可以轻易的判断你这个请求是爬虫。因此我们要经常设置这个值为一些浏览器的值来伪装我们的爬虫。 2Referer :表明当前这个请求是从哪个url过来的。这个一般也可以用来做反爬虫技术。如果不是从指定页面过来的那么就不败相关的响应。 3cookie: http 协议是无状态的。也就是同一个人发送了两次请求服务器没有能力知道这两个请求是否来自同一个人。因此这时仅就用 cookie来做标识。一般如果想要做登录后才能访问的网站那么就需发送 cookie 信息。 6、常见响应状态码: 200请求正常服务器正常的返回数据。 301: 永久重定向。比如在访问www.jingdong.com的时候会重定问到www.jd.com。 302临时重定向。比如在访问一个需要登录的页面的时候而此时没有登录那么就会重定向到登录页面。 400请求的url在服务器上找不到。换句话说就是请求 url错误。 403: 服务器拒绝访问权根不够。 500: 服务器内部错误。可能是服务器出现 bug 了。 7、浏览器抓包工具 浏览器内右键-检查或F12 1Elements 面板 作用查看和修改 HTML 和 CSS 代码 这个面板展示了当前页面的 HTML 结构 和 CSS 样式。你可以直接查看页面的 DOMDocument Object Model文档对象模型也就是页面的 HTML 元素的层次结构以及与每个元素关联的 CSS 样式。 实时查看页面结构通过 Elements 面板你可以看到浏览器是如何解析和展示 HTML 元素的。每个元素都可以展开以查看其子元素。 修改页面样式你可以在这个面板中临时修改 HTML 或 CSS 来查看效果变化。比如右键单击某个元素选择 “检查”Inspect可以查看并实时编辑该元素的样式。这些修改只会在本地生效不会影响服务器上的页面。 调试布局问题如果页面布局有问题比如元素显示错位或是某个元素不可见你可以使用 Elements 面板检查该元素的样式、布局盒模型Box Model看看是否有 CSS 样式问题。 使用示例 按下 F12打开 Elements 面板。 移动鼠标到页面上的元素浏览器会高亮显示该元素的 HTML 代码和样式。 你可以临时修改 HTML 或 CSS看看页面会如何变化。 2Console 面板 作用查看日志信息、调试 JavaScript Console 面板是用于执行和调试 JavaScript 代码 的区域。它有两个主要功能 输出日志开发者可以通过 JavaScript 中的 console.log() 方法将调试信息输出到控制台。这对于查看程序运行过程中的变量状态、错误信息等非常有用。 执行 JavaScript 代码你可以直接在控制台中输入和执行 JavaScript 代码。比如输入 document.querySelector(h1)可以获取页面上的第一个 h1 元素。 另外当 JavaScript 代码抛出错误时错误信息也会显示在 Console 面板中帮助你定位问题。 使用示例 按下 F12打开 Console 面板。 输入 alert(Hello!) 并按下回车浏览器会弹出一个提示框显示 “Hello!”。 3Network 面板 作用监控网络请求分析页面加载性能 Network 面板显示了页面加载时发起的所有网络请求包括 HTML、CSS、JavaScript 文件的请求。 图片、视频、音频等媒体资源的加载。 AJAX 请求即前端与服务器之间的动态数据交换。 你可以使用这个面板来分析页面加载的速度查看哪些资源占用了较多时间并可以检查每个请求的响应内容、状态码等。开发者通常用这个面板来调试 API 调用确保请求的数据正确返回以及分析页面性能瓶颈。 Network面板的概述时间轴 当你打开 Network 面板时你会看到一个时间轴它显示了页面加载过程中发出的所有请求按顺序排列通常包括 HTML 页面页面的主 HTML 文件。 CSS 文件用于页面样式的 CSS 文件。 JavaScript 文件前端逻辑的 JavaScript 文件。 图片、字体、媒体资源如图片、字体、视频等。 Ajax 请求或 Fetch 请求与服务器进行的异步数据交换。 其他资源如 WebSocket 连接、manifest 文件等。 4Sources 面板 作用调试 JavaScript 代码 Sources 面板允许开发者查看和调试 JavaScript 代码。你可以在这个面板中设置断点breakpoints当代码执行到某个断点时浏览器会暂停运行这样你可以逐步查看变量的值、调用的函数堆栈等。 常见功能 断点调试设置断点后当浏览器执行到这一行代码时会暂停你可以一步步调试代码。 监控变量在调试时可以实时查看变量的值帮助你分析 JavaScript 的执行过程。 查看本地和会话存储可以通过 Application 面板查看本地存储LocalStorage或会话存储SessionStorage中的数据。 5Application 面板 作用查看和管理存储、缓存及会话数据 Application 面板允许你查看页面存储的数据和资源包括 Cookies你可以查看每个域名下的 Cookie并且可以修改或删除它们。 LocalStorage 和 SessionStorage查看页面存储在浏览器本地的数据这通常用于保持用户状态等。 IndexedDB 和 Web SQL这些是浏览器内的数据库存储可以存储较大数据。 Service Workers你可以管理页面的服务工作线程Service Workers这对于 PWA渐进式网页应用和离线功能非常重要。 6Performance 面板 作用分析页面加载性能进行性能优化 Performance 面板允许你记录页面加载过程中的性能数据帮助你分析哪些部分消耗了过多的资源。这对于优化页面的加载速度非常重要开发者可以通过分析页面的渲染、资源加载、JavaScript 执行等来发现瓶颈。 常见功能 记录页面性能通过点击 “Record” 按钮你可以记录页面加载的详细信息分析每个部分的加载时间。 帧率分析如果你的页面包含动画或交互可以查看帧率来确保页面的流畅度。 7Security 面板 作用检查页面的安全性 Security 面板帮助开发者查看页面的安全信息比如 HTTPS 证书是否有效是否存在混合内容即 HTTPS 页面中包含了不安全的 HTTP 资源。如果你的网站有安全问题这个面板会显示警告。 8Lighthouse 面板 作用分析页面的整体质量包括性能、可访问性、SEO Lighthouse 是一个自动化工具用于提升 Web 应用的质量。它可以生成关于页面性能、可访问性、SEO搜索引擎优化等方面的报告帮助开发者识别出可以改进的地方。 使用示例 按下 F12打开 Lighthouse 面板。 选择要分析的项目例如性能、SEO 等点击 “Generate Report” 生成报告。 总结 Elements查看和编辑页面结构和样式。 Console查看调试信息执行 JavaScript 代码。 Network监控和分析页面加载的网络请求。 Sources调试 JavaScript 代码设置断点。 Application管理页面存储的数据和资源。 Performance分析页面性能识别瓶颈。 Security检查页面的安全性。 Lighthouse生成页面质量报告。
http://www.w-s-a.com/news/551360/

相关文章:

  • 网站建设 保密做网站赚钱交税
  • 食品建设网站前的市场分析进出口网站贸易平台有哪些
  • php商城网站建设个人网站用什么服务器
  • 如何做好品牌网站建设方案网站开发的学习
  • 网站开发 管理方案wordpress怎么搭建微博
  • 有哪些ui的设计网站网上商城网站建设设计方案
  • iis中怎样配置网站绑定运城可以做网站的公司
  • 品牌网站建设开发价格dedecms电影网站模板
  • 网站设计外包合同帝国网站后台认证码错误
  • 网站设计公司深圳怎么免费做公司网站
  • 90设计网站几次是什么意思swipe类网站
  • 安康微网站建设网站域名使用费用
  • 网站建设执招标评分表微信代理网站模板
  • ps做网站分辨率自适应地方网站盈利
  • 免费自助小型网站专业网站建设组织
  • 猎聘网网站建设目标查看别人wordpress主题
  • 免费建设网站入驻网站备案不能更新吗
  • 个人网站制作代码西安建筑类公司
  • 网站备案要营业执照吗网站建设如何记账
  • 新手学做网站难吗外包服务商
  • 公司网站建设的项目工作分解结构wordpress插件后端页面
  • 四川省建设人才网站2018南京专业建站
  • ppt制作网站推荐seo教程百度网盘
  • 网站建设多少钱一平米网上商城网站开发报告
  • 福州网站建设招聘信息哈尔滨中企动力科技股份有限公司
  • 军事新闻最新seo关键词查询排名软件
  • 免费网站建设官网项目建设表态发言
  • 平谷建站推广广告投放平台主要有哪些
  • 网站备案掉了什么原因步骤怎么读
  • 徐州市建设监理协会网站做一个公司官网需要多少钱