当前位置：首页 > news >正文

南通市建设工程安全监督站网站wordpress主题主页面

news 2025/12/29 4:28:01

南通市建设工程安全监督站网站,wordpress主题主页面,哈尔滨做网站,网站平面模板目录一、爬虫是什么二、爬虫过程 #xff08;1#xff09;获取网页 #xff08;2#xff09;提取信息 #xff08;3#xff09;保存数据三、爬虫可爬的数据四、爬虫问题一、爬虫是什么互联网#xff0c;后面有个网字#xff0c;我们可以把它看成一张蜘蛛网…目录一、爬虫是什么二、爬虫过程 1获取网页 2提取信息 3保存数据三、爬虫可爬的数据四、爬虫问题一、爬虫是什么互联网后面有个网字我们可以把它看成一张蜘蛛网。爬虫后面有个虫子我们可以把它看成蜘蛛。爬虫之于互联网就是蜘蛛之于蜘蛛网。蜘蛛每爬到一个节点就是爬虫访问了一个网页。用正式的话来说爬虫就是自动提取、保存网页信息的程序。二、爬虫过程 1获取网页获取网页就是获取网页的源代码。注因为源代码包含各种信息所以要获取源代码 2提取信息提取信息一般采用正则表达式。另外由于网页结构具有一定规则所以有的是采用其他方式提前的如 Beautiful Soup、pyquery、lxml 3保存数据保存数据可以保存为TXT文件、JSON文件当然也可以保存到数据库MySQL、MongoDB等。三、爬虫可爬的数据在以前的文章中我们知道网页中的信息都藏在URL中所以一般来说只要是URL的数据我们就可以抓取。四、爬虫问题最常见的一个问题就是无法爬出完整数据。即我们爬出来的数据和我们看到的数据并不一样这是怎么回事呢因为在该网站的HTML代码中可能引入了app.js文件其负责整个文件的渲染。而当浏览器打开这个界面时首先加载HTML内容然后引入app.js文件并发起请求。然后执行该文件中的JavaScript代码而JavaScript代码会改变HTML中的节点并添加内容最后得到内容但是当我们使用库urllib和request请求界面时只得到HTML代码但它不会继续加载JavaScript文件所以我们就无法载入完整内容。至于解决办法我们会在后续文章中一一道来。

查看全文

http://www.w-s-a.com/news/164055/