找我家是做的视频网站好,网站天下,成都服装网站建设,wordpress 前台发帖在讲解爬虫内容之前#xff0c;我们需要先学习一项写爬虫的必备技能#xff1a;审查元素#xff08;如果已掌握#xff0c;可跳过此部分内容#xff09;。1、审查元素在浏览器的地址栏输入URL地址#xff0c;在网页处右键单击#xff0c;找到检查。(不同浏览器的叫法不同…在讲解爬虫内容之前我们需要先学习一项写爬虫的必备技能审查元素如果已掌握可跳过此部分内容。1、审查元素在浏览器的地址栏输入URL地址在网页处右键单击找到检查。(不同浏览器的叫法不同Chrome浏览器叫做检查Firefox浏览器叫做查看元素但是功能都是相同的)我们可以看到右侧出现了一大推代码这些代码就叫做HTML。什么是HTML举个容易理解的例子我们的基因决定了我们的原始容貌服务器返回的HTML决定了网站的原始容貌。为啥说是原始容貌呢因为人可以整容啊扎心了有木有那网站也可以”整容”吗可以请看下图我能有这么多钱吗显然不可能。我是怎么给网站”整容”的呢就是通过修改服务器返回的HTML信息。我们每个人都是”整容大师”可以修改页面信息。我们在页面的哪个位置点击审查元素浏览器就会为我们定位到相应的HTML位置进而就可以在本地更改HTML信息。再举个小例子我们都知道使用浏览器”记住密码”的功能密码会变成一堆小黑点是不可见的。可以让密码显示出来吗可以只需给页面”动个小手术”以淘宝为例在输入密码框处右键点击检查。可以看到浏览器为我们自动定位到了相应的HTML位置。将下图中的password属性值改为text属性值(直接在右侧代码处修改)我们让浏览器记住的密码就这样显现出来了说这么多什么意思呢浏览器就是作为客户端从服务器端获取信息然后将信息解析并展示给我们的。我们可以在本地修改HTML信息为网页”整容”但是我们修改的信息不会回传到服务器服务器存储的HTML信息不会改变。刷新一下界面页面还会回到原本的样子。这就跟人整容一样我们能改变一些表面的东西但是不能改变我们的基因。2、简单实例网络爬虫的第一步就是根据URL获取网页的HTML信息。在Python3中可以使用urllib.request和requests进行网页爬取。urllib库是python内置的无需我们额外安装只要安装了Python就可以使用这个库。requests库是第三方库需要我们自己安装。requests库强大好用所以本文使用requests库获取网页的HTML信息。requests库的github地址https://github.com/requests/requests(1) requests安装在cmd中使用如下指令安装requestspip install requests1或者easy_install requests1(2) 简单实例requests库的基础方法如下requests中文文档http://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlrequests库的开发者为我们提供了详细的中文教程查询起来很方便。本文不会对其所有内容进行讲解摘取其部分使用到的内容进行实战说明。首先让我们看下requests.get()方法它用于向服务器发起GET请求不了解GET请求没有关系。我们可以这样理解get的中文意思是得到、抓住那这个requests.get()方法就是从服务器得到、抓住数据也就是获取数据。让我们看一个例子(以 www.gitbook.cn为例)来加深理解# -*- coding:UTF-8 -*-import requestsif __name__ __main__:target http://gitbook.cn/req requests.get(urltarget)print(req.text)requests.get()方法必须设置的一个参数就是url因为我们得告诉GET请求我们的目标是谁我们要获取谁的信息。运行程序看下结果左侧是我们程序获得的结果右侧是我们在www.gitbook.cn网站审查元素获得的信息。我们可以看到我们已经顺利获得了该网页的HTML信息。这就是一个最简单的爬虫实例可能你会问我只是爬取了这个网页的HTML信息有什么用呢客官稍安勿躁接下来进入我们的实战正文。