服装网站开发,wordpress文件简易版,wordpress 百家号插件,天津网站制作系统从零开始学习Python在e站上下载蕾姆的本子 郑重说明#xff1a; 1. 本文仅仅只是Python技术应用的实践和探讨#xff0c;本人绝不提供和传递任何违背国家相关法律的视频、音频及图像资料。 2. 本人也是刚刚开始接触Python#xff0c;所以存在很多可以改进的地方#xff0…
从零开始学习Python在e站上下载蕾姆的本子 郑重说明 1. 本文仅仅只是Python技术应用的实践和探讨本人绝不提供和传递任何违背国家相关法律的视频、音频及图像资料。 2. 本人也是刚刚开始接触Python所以存在很多可以改进的地方例如并没有采取多线程没有做内存优化什么的我会在之后的学习中会慢慢完善。 3. 有动力才能好好学习/滑稽
正文开始
首先看一下最终效果 /捂脸/捂脸广大蕾姆党不要来打我
准备材料电脑科学上网
Python环境搭建 先给大家介绍一下需要下载的工具 Python 2.7纵观市面上Python2版本的视频资料教程还是比Python3多的所以作为初学者我还是使用Python2啦 Python IDEPycharm5其他IDE类似sublimeeclipse当然也可以啦 第三方插件pip,requests, BeautifulSoup4. python安装和环境变量设置 http://www.runoob.com/python/python-install.html pip安装和使用pip安装其他插件: http://blog.csdn.net/olanlanxiari/article/details/48086917
过程解释
打开e站查看源代码我们可以看见
a hrefhttps://e-hentai.org/lofi/g/1004996/aa63985f71/
img srchttps://ehgt.org/t/fc/6c/fc6c98c73c1f6d096967196e9bbb9e0435a1f0b1-485435-1000-1421-jpg_l.jpg altCover Image
/a
https://e-hentai.org/lofi/g/1004996/aa63985f71/ 是漫画的地址 https://ehgt.org/t/fc/6c/fc6c98c73c1f6d096967196e9bbb9e0435a1f0b1-485435-1000-1421-jpg_l.jpg这个是经过压缩之后的图片地址一脸嫌弃 因此我们进入漫画的地址
进入漫画地址后再去查看源代码时左图第一张图片对应的是右侧的代码
a hrefhttps://e-hentai.org/lofi/s/fc6c98c73c/1004996-1 relnofollow
img srchttps://ehgt.org/t/fc/6c/fc6c98c73c1f6d096967196e9bbb9e0435a1f0b1-485435-1000-1421-jpg_l.jpg
/a
https://ehgt.org/t/fc/6c/fc6c98c73c1f6d096967196e9bbb9e0435a1f0b1-485435-1000-1421-jpg_l.jpg是缩略图的jpg继续一脸嫌弃
为了取得最好的观看效果我们取前面的具有特征值rel”nofollow”的地址点击进去之后可以看见 我们在右侧发现了高清无码图片的存储地址
img idsm srchttp://125.143.18.117:56133/h/fbdb1dfcf1acde845490021f07e89a15e2625e46-124648-780-1108-jpg/keystamp1486713900-0ab46e6f81;fileindex49878524;xres780/_1_ver2_copy.jpg alt_1_ver2_copy.jpg
title_1_ver2_copy.jpg referrerpolicyno-referrer onerrorthis.onerrornull; document.locationdocument.location?nl1-412975 onloaddocument.cookie reload; path/; expiresThu, 01 Jan 1970 00:00:01 GMT;
id”sm” src”http://125.143.18.117:56133/h/fbdb1dfcf1acde845490021f07e89a15e2625e46-124648-780-1108-jpg/keystamp1486713900-0ab46e6f81;fileindex49878524;xres780/_1_ver2_copy.jpg” 特征id “sm”, 后面附带图片地址这个就是我们想要的
所以总结一下过程目的是找蕾姆误non-H的本子所以我们要在总目录页找到每一个漫画的地址url,然后在每个漫画中遍历查找每一张高清无码图片的地址url,之后通过爬虫技术把一张张图片拷贝进自己硬盘里。
# -*- coding: UTF-8 -*-
import os
import urllib
import urllib2
import requests as req
from bs4 import BeautifulSoup
import redef next_page(page_link):检测有无next page:param page_link: url:return: nextpage exist 1nextpage exist 0content get_content(page_link)if (content.find(Next Page))!-1:return 1else:return 0def get_content(url):得到content信息:param url::return: contentreq urllib2.Request(url)req.add_header(User-Agent,Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36)req.add_header(Host,e-hentai.org)req.add_header(Referer,https://e-hentai.org/lofi)html urllib.urlopen(url)contenthtml.read()html.close()return contentdef get_images(page_link,temp):导入每一张漫画的url:param page_link: url:param temp: 地temp篇漫画:return:if next_page(page_link)!0:info get_content(page_link)soup BeautifulSoup(info)all_img soup.find_all(relnofollow)#for img in all_img:# print img[href]i1new_url page_link %d%iwhile (next_page(new_url))!0:info get_content(new_url)soup BeautifulSoup(info)all_img_new soup.find_all(relnofollow)all_img all_img all_img_newi1new_url page_link %d%iprint new_urlelse:new_urlpage_linkinfo get_content(new_url)soup BeautifulSoup(info)all_img_new soup.find_all(relnofollow)all_img all_img all_img_newtitle 蕾姆%s%tempx0os.mkdir(rE:\python\program\shenshi0210\%s%title)for img_url in all_img:print img_url[href]print xdownload(img_url[href],x,title)xx1returndef download(img_url,x,title):下载漫画:param img_url: url:param x: 张数:param title: 存入磁盘的位置:return: info get_content(img_url)soup BeautifulSoup(info)img_real soup.find_all(img, idsm)print img_real[0][src]img_namexpath os.path.join(E:\\python\\program\\shenshi0210\\%s%title,%s.jpg%x)urllib.urlretrieve(img_real[0][src],path)def mulu_url(page_link):导入总目录页面所有漫画的urlinfo_mulu get_content(page_link)soup_mulu BeautifulSoup(info_mulu)mulu_url soup_mulu.find_all(a,{class:b})temp0for x in range(1,len(mulu_url)-1):print mulu_url[temp][href]temp1get_images(mulu_url[temp][href],temp)return mulu_url[temp][href]origin_page_link https://e-hentai.org/lofi/?f_searchramf_applySearch
mulu_url(origin_page_link)后记
Python真是博大精深
最开始是准备用Python做数据分析的然后不知不觉就入了爬虫的坑当然这个程序也有太多太多不足比如没有做多线程速度实在太慢变量的使用太过于随心所欲了还有内存没有优化跑起来速度真心有点慢。
大佬们请尽管做出批评的意见和建议小弟在接下来的几个月会开始系统的正式学习Python同为新萌的小伙伴们有空来我博客里玩耍吧
接下来每两周会更新一次学习进展大家一起加油