当前位置：首页 > news >正文

镇江集团网站建设产品推广计划

news 2026/4/8 14:02:36

镇江集团网站建设,产品推广计划,青岛网上房地产网官网,建设网站需要api吗python爬虫1#xff1a;基础知识前言 python实现网络爬虫非常简单#xff0c;只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点#xff0c;方便以后复习。目录结构文章目录 python爬虫1#xff1a;基础知识1. 基础认知1.1 什么是爬虫基础知识前言 python实现网络爬虫非常简单只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点方便以后复习。目录结构文章目录 python爬虫1基础知识1. 基础认知1.1 什么是爬虫1.2 爬虫可以做什么1.3 爬虫的主要流程1.4 爬虫需要学习什么 2. 网页相关知识2.1 html基础知识2.2 静态网页与动态网页2.3 常见的网页请求模式 3. 其他基础知识3.1 数据库3.2 代理 4. 总结 1. 基础认知 1.1 什么是爬虫这里的爬虫一般指的是网络爬虫即可以自动去网络上爬取我们所需的内容的脚本程序当然这里的自动其实是说你已经写好了程序。 1.2 爬虫可以做什么爬虫有一句很关键的话所见即所得。意思是你自己能在网上看见的就是可以爬取的内容。这里需要说明一下一个网站你是普通用户那么你写的爬虫也是用你自己普通用户的身份那么只能爬取普通用户可以看见的内容那些vip用户的内容你无法爬取如果想要爬取要么换一个用户账号要么嘿嘿嘿。 1.3 爬虫的主要流程主要流程如下 1. 确定目标确定要爬取的网页/网站 2. 请求网页以获取网页源码 3. 解析网页源码以获取所需的内容 4. 将获取的内容保存到我们的本地1.4 爬虫需要学习什么如果你只是学来玩我也是菜鸡那么可以学习的内容其实不是很多主要为前端的基础知识主要了解html、简单了解css和js代理、ip池构建等基础知识也需要知道python基础知识这个肯定必须会requests请求库lxml、bs4、pyquery、re解析库一般会其中一两个即可反正目的是相同的selenium库动态处理必须会数据库基础会点简单的MySQL数据库基础就行了不需要多深入其实大部分时候用不到scrapy这个爬虫框架看自己需求嗯学的东西不多只有亿点点。 2. 网页相关知识 2.1 html基础知识这里简单说明一下html的基础知识主要是方便看后面教程时大家都懂。首先随便打开一个网页鼠标右键选择”查看源码“你就可以html代码了可以发现一个最简单的事实html代码都是类似于xxxxxxx/xxxx这样的形式我们将它称之为标签其可以分为两类双标签或者单标签。双标签就是上图中那种同一个名字会出现两次形成闭合单标签自然只出现一次。标签里面的字母自然具有其特殊意义。这里我肯定不会列完只列几个最为重要的标签也是爬虫时用到最多的标签 a标签超链接标签即我们网页看到那种可以点击跳转的东东几乎都是a标签它有一个重要属性名为href其包好的值就是跳转的链接 img标签图像标签即我们网页上看到的那些图片几乎都是img标签它也有一个重要属性即src其包含了图片的下载地址 **其实我们爬虫爬取的就是网页中这些具有关键信息的代码内容然后再去利用这些去获取所需。**比如我们获取图片其实不是真的直接就把图片下载下来而是先获取网页源码接着获取图片链接最后再去下载图片。 2.2 静态网页与动态网页现在网页常见的有两类静态网页即我们打开网页它直接就加载完了的不会说你滚轮往下滚会不停加载内容这类网页爬取较为简单只要你能绕过反爬虫机制就可以了动态网页即我们打开网页内容只加载了部分你往下滑动内容会不停更新常见的网站比如百度图片之类的这类网页爬取比较困难绕过反爬虫机制只是必须的一步还需要进行动态处理 2.3 常见的网页请求模式最常见的两种请求方式 GET请求比如你搜索某个东西都是GET请求其一般带有参数比如百度搜索你随便搜索一个看看上面的网页链接你会发现这时候你就意识到GET请求的参数都是透明的这也是为什么不用于登录这样的表单页面的并且参数前面一般带有一个标记字段比如这里wdxxxx。 POST请求一般涉及到填写表单登录之类的表单都涉及到POST请求POST请求肯定是隐藏看不见的但是你想找到你提交的登录表单还是可以的只是比较麻烦这里我举个例子豆瓣登录选择密码登录随便输入一串然后点击登录不过在此时需要打开浏览器的”检查“功能任何浏览器都有但是可能名字不同这里是Google然后细心去找 3. 其他基础知识 3.1 数据库为什么需要学习数据库的基础知识主要是方便管理爬取的内容/构建代理池。但是其实对于我们个人学习者来说一般用不到数据库普通的txt文件就够用了因此学不学习还是看自己的需求。 3.2 代理为什么需要代理主要目的是提高爬取速度。因为爬虫对于大部分网站来说就是害虫因此如果你的脚本程序不限制访问速度那么容易被判断出来是一个爬虫就会被短时间禁掉ip。这其实属于爬虫与反爬的斗争。对于这个问题我们可以构建代理池即用网上别人提供的ip去访问这样我们可以同时调用几百个ip去访问即使一个ip一秒钟访问1次那么速度也提升了。网上有免费的代理网站不过肯定没有付费爽但是建议大家使用免费的。 4. 总结好的本篇文章主要梳理了一下学习爬虫的基础知识并为大家介绍了主要用到的基础知识。下一篇就开始介绍python的请求库requests了。

查看全文

http://www.w-s-a.com/news/597309/