当前位置: 首页 > news >正文

镇江集团网站建设产品推广计划

镇江集团网站建设,产品推广计划,青岛网上房地产网官网,建设网站需要api吗python爬虫1#xff1a;基础知识 前言 ​ python实现网络爬虫非常简单#xff0c;只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点#xff0c;方便以后复习。 目录结构 文章目录 python爬虫1#xff1a;基础知识1. 基础认知1.1 什么是爬虫基础知识 前言 ​ python实现网络爬虫非常简单只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点方便以后复习。 目录结构 文章目录 python爬虫1基础知识1. 基础认知1.1 什么是爬虫1.2 爬虫可以做什么1.3 爬虫的主要流程1.4 爬虫需要学习什么 2. 网页相关知识2.1 html基础知识2.2 静态网页与动态网页2.3 常见的网页请求模式 3. 其他基础知识3.1 数据库3.2 代理 4. 总结 1. 基础认知 1.1 什么是爬虫 ​ 这里的爬虫一般指的是网络爬虫即可以自动去网络上爬取我们所需的内容的脚本程序当然这里的自动其实是说你已经写好了程序。 1.2 爬虫可以做什么 ​ 爬虫有一句很关键的话所见即所得。意思是你自己能在网上看见的就是可以爬取的内容。这里需要说明一下一个网站你是普通用户那么你写的爬虫也是用你自己普通用户的身份那么只能爬取普通用户可以看见的内容那些vip用户的内容你无法爬取如果想要爬取要么换一个用户账号要么嘿嘿嘿。 1.3 爬虫的主要流程 ​ 主要流程如下 1. 确定目标确定要爬取的网页/网站 2. 请求网页以获取网页源码 3. 解析网页源码以获取所需的内容 4. 将获取的内容保存到我们的本地1.4 爬虫需要学习什么 ​ 如果你只是学来玩我也是菜鸡那么可以学习的内容其实不是很多主要为 前端的基础知识主要了解html、简单了解css和js代理、ip池构建等基础知识也需要知道python基础知识这个肯定必须会requests请求库lxml、bs4、pyquery、re解析库一般会其中一两个即可反正目的是相同的selenium库动态处理必须会数据库基础会点简单的MySQL数据库基础就行了不需要多深入其实大部分时候用不到scrapy这个爬虫框架看自己需求 ​ 嗯学的东西不多只有亿点点。 2. 网页相关知识 2.1 html基础知识 ​ 这里简单说明一下html的基础知识主要是方便看后面教程时大家都懂。 ​ 首先随便打开一个网页鼠标右键选择”查看源码“你就可以html代码了 ​ 可以发现一个最简单的事实html代码都是类似于xxxxxxx/xxxx这样的形式我们将它称之为标签其可以分为两类双标签或者单标签。双标签就是上图中那种同一个名字会出现两次形成闭合单标签自然只出现一次。 ​ 标签里面的字母自然具有其特殊意义。这里我肯定不会列完只列几个最为重要的标签也是爬虫时用到最多的标签 a标签超链接标签即我们网页看到那种可以点击跳转的东东几乎都是a标签 它有一个重要属性名为href其包好的值就是跳转的链接 img标签图像标签即我们网页上看到的那些图片几乎都是img标签 它也有一个重要属性即src其包含了图片的下载地址 ​ **其实我们爬虫爬取的就是网页中这些具有关键信息的代码内容然后再去利用这些去获取所需。**比如我们获取图片其实不是真的直接就把图片下载下来而是先获取网页源码接着获取图片链接最后再去下载图片。 2.2 静态网页与动态网页 ​ 现在网页常见的有两类 静态网页 即我们打开网页它直接就加载完了的不会说你滚轮往下滚会不停加载内容这类网页爬取较为简单只要你能绕过反爬虫机制就可以了 动态网页 即我们打开网页内容只加载了部分你往下滑动内容会不停更新常见的网站比如百度图片之类的这类网页爬取比较困难绕过反爬虫机制只是必须的一步还需要进行动态处理 2.3 常见的网页请求模式 ​ 最常见的两种请求方式 GET请求 比如你搜索某个东西都是GET请求 其一般带有参数比如百度搜索你随便搜索一个看看上面的网页链接你会发现 这时候你就意识到GET请求的参数都是透明的这也是为什么不用于登录这样的表单页面的并且参数前面一般带有一个标记字段比如这里wdxxxx。 POST请求 一般涉及到填写表单登录之类的表单都涉及到POST请求POST请求肯定是隐藏看不见的但是你想找到你提交的登录表单还是可以的只是比较麻烦这里我举个例子豆瓣登录选择密码登录随便输入一串然后点击登录不过在此时需要打开浏览器的”检查“功能任何浏览器都有但是可能名字不同这里是Google然后细心去找 3. 其他基础知识 3.1 数据库 ​ 为什么需要学习数据库的基础知识主要是方便管理爬取的内容/构建代理池。 ​ 但是其实对于我们个人学习者来说一般用不到数据库普通的txt文件就够用了因此学不学习还是看自己的需求。 3.2 代理 ​ 为什么需要代理主要目的是提高爬取速度。因为爬虫对于大部分网站来说就是害虫因此如果你的脚本程序不限制访问速度那么容易被判断出来是一个爬虫就会被短时间禁掉ip。这其实属于爬虫与反爬的斗争。 ​ 对于这个问题我们可以构建代理池即用网上别人提供的ip去访问这样我们可以同时调用几百个ip去访问即使一个ip一秒钟访问1次那么速度也提升了。 ​ 网上有免费的代理网站不过肯定没有付费爽但是建议大家使用免费的。 4. 总结 ​ 好的本篇文章主要梳理了一下学习爬虫的基础知识并为大家介绍了主要用到的基础知识。下一篇就开始介绍python的请求库requests了。
http://www.w-s-a.com/news/597309/

相关文章:

  • 青岛外贸假发网站建设seo优化名词解释
  • 四川建设厅网站施工员证查询网站建设行业政策
  • 网站全站出售dw怎么设计网页
  • 合肥网站建设方案服务网站建设推荐郑国华
  • 襄阳网站建设需要多少钱台州网站设计公司网站
  • 东莞专业拍摄做网站照片如何在百度上发布自己的广告
  • 网站建设费 科目做网站建设最好学什么
  • php商城网站建设多少钱深圳市建设
  • 有什么做糕点的视频网站黄岛做网站
  • 做视频课程网站建设一个普通网站需要多少钱
  • 专做化妆品的网站合肥做网站建设公司
  • 唐山企业网站网站建设费计入那个科目
  • 企业网站制作运营彩虹云主机官网
  • 如何建设废品网站如何在阿里云云服务器上搭建网站
  • 如何建立网站后台程序wordpress 后台管理
  • 山东外贸网站建设怎么样wordpress首页左图右文
  • 志丹网站建设wordpress 形式修改
  • 南通seo网站推广费用网站建设就业前景
  • 自适应网站做mip改造浏览器广告投放
  • 网站meta网页描述网站的推广费用
  • 偃师市住房和城乡建设局网站网站个人主页怎么做
  • 做网站要实名认证吗wordpress去掉仪表盘
  • 在哪做网站好Python建网站的步骤
  • 卢松松的网站办公室设计布局
  • 住房城乡建设干部学院网站织梦网站0day漏洞
  • 企业网站seo优帮云手机桌面布局设计软件
  • 无证做音频网站违法吗智能建站加盟电话
  • 鹿泉专业网站建设做网站为什么要建站点
  • 加强网站建设和维护工作新闻大全
  • 红鱼洞水库建设管理局网站左右左布局网站建设