商务网站内容建设包括,网站页面设计培训,浙江省一建建设集团网站,福建网站建设公需求#xff1a;
1.爬取情话网站中表白里面的所有句子#xff08;表白词_表白的话_表白句子情话大全_情话网#xff09;
2.利用XPath来进行解析
3.使用面向对象形发请求——创建一个类
4.将爬取下来的数据保存在数据库中 写出对应解析语法 //div[classbox labelbo…需求
1.爬取情话网站中表白里面的所有句子表白词_表白的话_表白句子情话大全_情话网
2.利用XPath来进行解析
3.使用面向对象形发请求——创建一个类
4.将爬取下来的数据保存在数据库中 写出对应解析语法 //div[classbox labelbox]/h4/a/href 如此照推详情页文本对应的解析语法 //div[classstbody ]//p[1]/text()|//div[classstbody first]//p[1]/text() 示例代码
import requests
from lxml import etree
import pymysql
#面向对象发请求 1.创建一个类
class Spiderqinghua():def __init__(self):self.url http://www.ainicr.cn/qh/t8.htmlself.headers {User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36}#建立与MySQL的连接self.db pymysql.connect(userroot,passwordwx990826,databasepingping)self.cursorself.db.cursor()#获取操作游标def get_data(self,url):r requests.get(urlurl,headersself.headers)return r.textdef get_list_data(self,data):#列表页#//div[classbox labelbox]/h4/a/hrefxmletree.HTML(data)hrefs xml.xpath(//div[classbox labelbox]/h4/a/href)# print(hrefs)return hrefsdef parse_data(self,data):#详情页xmletree.HTML(data)content xml.xpath(//div[classstbody ]//p[1]/text()|//div[classstbody first]//p[1]/text())for contents in content:print(文本:,contents)print()self.save_data(contents)def save_data(self,qinghua):sql insert into qinghua_data(text) value (%s)self.cursor.execute(sql,[qinghua])#执行sql语句self.db.commit()#提交def main(self):html_dataself.get_data(self.url)hrefs self.get_list_data(html_data)for href in hrefs:print(详情页连接,href)x_data self.get_data(href)# print(x_data)self.parse_data(x_data)
#//div[classstbody ]//p[1]/text()|//div[classstbody first]//p[1]/text()if __name__ __main__:spiderSpiderqinghua()spider.main()# h spider.get_data()# # print(h)# spider.get_list_data(h)
运行结果