网页设计和网站建设实战大全,网站建设行业的分析,网站 数据库 sql 导入,可以加微信的交友软件本期目录
1 爬取思路
2 爬虫过程
2.1 网址
2.2 查看网页代码
3 爬取数据
3.1 导入包
3.2 爬取代码
01
爬取思路 \*- 第一步#xff0c;获取页面内容\*- 第二步#xff1a;解析并获取单个项目链接 \*- 第三步#xff1a;获取子页面内容 \*- 第四步#xff1a;解析…本期目录
1 爬取思路
2 爬虫过程
2.1 网址
2.2 查看网页代码
3 爬取数据
3.1 导入包
3.2 爬取代码
01
爬取思路 \*- 第一步获取页面内容\*- 第二步解析并获取单个项目链接 \*- 第三步获取子页面内容 \*- 第四步解析子页面相关信息 \*- 第五步保存json格式数据02
爬虫过程
2.1 网址
*- 网址url https://ssr1.scrape.center *- 目标 爬取电影详情内容2.2 查看网页代码
*- 网页源代码没有数据*- 采取正常requests爬取03
爬取数据
3.1 导入包
import requestsimport reimport loggingfrom lxml import etreeimport jsonimport multiprocessing3.2 爬取代码
url https://ssr1.scrape.centerpage 10*- 爬取函数
def scrape_page(url): try: response requests.get(url) if response.status_code 200: return response.text logging.error(fget invalid status_code{status_code} while scrape {url}) except requests.RequestException: logging.error(ferror occurred: {url},exc_info True)*- 获取页面列表
def get_index_url(page): index_url f{url}/page/{page} return scrape_page(index_url)*- 解析列表页面获取单个网址:re
def parse_index(html): pattern re.compile(a.*?href(.*?).*?classname) items re.findall(pattern,html) for item in items: detail_url urlitem yield detail_url *- 爬取子页面
def scrape_detail(url): return scrape_page(url)*- 解析子页面xpath
def parse_detail(html): tree etree.HTML(html) cover .join(tree.xpath(//*[iddetail]/div[1]/div/div/div[1]/div/div[1]/a/img/src)).replace(\n,).replace( ,) name .join(tree.xpath(//*[iddetail]/div[1]/div/div/div[1]/div/div[2]/a/h2//text())).replace(\n,).replace( ,) categories .join(tree.xpath(//*[iddetail]/div[1]/div/div/div[1]/div/div[2]/div[1]//text())).replace(\n,).replace( ,) published .join(tree.xpath(//*[iddetail]/div[1]/div/div/div[1]/div/div[2]/div[2]//text())).replace(\n,).replace( ,) drama .join(tree.xpath(//*[iddetail]/div[1]/div/div/div[1]/div/div[2]/div[4]/p//text())).replace(\n,).replace( ,) score .join(tree.xpath(//*[iddetail]/div[1]/div/div/div[1]/div/div[3]/p[1]//text())).replace(\n,).replace( ,) return { cover:cover, name:name, categories:categories, published:published, drama:drama, score:score }*- 数据保存
def save_data(data): name data.get(name) data_path fResultData/{name}.json json.dump(data,open(data_path,w,encodingutf-8),ensure_asciiFalse,indent2) print(f{data_path}处理完成)*- 主函数
def main(): for i in range(1,page1): index_html get_index_url(i) detail_urls parse_index(index_html) for detail_url in detail_urls: detail_html scrape_detail(detail_url) data parse_detail(detail_html) save_data(data) if __name__ __main__: main()最后学好 Python 不论是就业还是做副业赚钱都不错但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料给那些想学习 Python 的小伙伴们一点帮助
一、Python所有方向的学习路线 Python所有方向路线就是把Python常用的技术点做整理形成各个领域的知识点汇总它的用处就在于你可以按照上面的知识点去找对应的学习资源保证自己学得较为全面。
二、学习软件 工欲善其事必先利其器。学习Python常用的开发软件都在这里了给大家节省了很多时间。 三、入门学习视频 我们在看视频学习的时候不能光动眼动脑不动手比较科学的学习方法是在理解之后运用它们这时候练手项目就很适合了。 四、实战案例 光学理论是没用的要学会跟着一起敲要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战案例来学习。 五、100道Python练习题 检查学习结果。 最后如果你也想自学Python可以关注我。我会把踩过的坑分享给你让你不要踩坑提高学习速度这套资料涵盖了诸多学习内容开发工具基础视频教程项目实战源码51本电子书籍100道练习题等。相信可以帮助大家在最短的时间内能达到事半功倍效果用来复习也是非常不错的。