中英双语外贸网站源码,宿迁做网站的公司,可以看任何东西的浏览器,上海做网站吧一、在爬虫中#xff0c;爬取的数据类型如下
1.document:返回的是一个HTML文档
2.png:无损的图片#xff0c;jpg:压缩后的图片,wbep:有损压缩#xff0c;比png差#xff0c;比jpg好
3.avgxml图像编码字符串
4.script:脚本文件#xff0c;依据一定格式编写的可执行的文…一、在爬虫中爬取的数据类型如下
1.document:返回的是一个HTML文档
2.png:无损的图片jpg:压缩后的图片,wbep:有损压缩比png差比jpg好
3.avgxml图像编码字符串
4.script:脚本文件依据一定格式编写的可执行的文件
5.gif:图像交换格式
6.xhr:返回的是json数据类型在没有刷新整个网页的情况下更新部分网页也称Ajax请求
7.包后缀是css意味着其是css样式
二、
1.几个快捷进入开发者工具的指令
打开开发者工具方法F12(键盘)/fnf12/ctrlshifti 2.列表转字符串方法
str.join(列表)
如\n.join(selector.css(.noveContent p ::text).getall()) 3.files os.listdir(filename) # 获取文件夹下所有的小视频
with zipfile.ZipFile(filenametitle.mp4,modew) as z z.write(content) 4.print(response.text)后,在下方按住ctrlf键可以搜索如下图 点击
点击.*可以用正则表达式如果用正则表达解析数据可以在这里尝试可以看见匹配的数量然后再写入代码中。
5.列表中嵌套元祖如何快速找出元祖中的元素。
如a[(1,as),(2,ajsh),(781,ajhsasa)] 用第二张图的方法可以直接取出元素
6.遇到参数很多加冒号很麻烦怎么办如下图 首先选中代码按ctrlr出现下图
点击·*进入正则写入下图
代码是 (.*?): (.*)
$1: $2,
点击replaceall
结果展现
二、视频类爬虫总结
爬取短视频类型的数据一般步骤
1.点击media,刷新播放一个视频会刷新一个包点击发现是播放视频的包
2.复制这个包url中的关键字在搜索框中进行搜索看有哪些包有关键字。
3.搜索后找到有play_url的包
4.看这个包的url,观察有什么规律
5.以糖豆视频为例发现这个包的url有参数vid
6.查找参数在哪个位置
7.在xhr 动态加载中找到包发现其中json数据中有vid的数据。
8.访问xhr 中的包获取vid数据利用获取到的vid数据拼凑含有play_url的包的链接访问这个链接获取play_url
9.多页爬取观察xhr 包的链接有什么规律发现参数为页数即可多页爬取
注意访问视频play_url时爬取短视频类型headers中把user-agent,cookie,refer全部加上
爬取长视频的一般步骤长视频通常以m3u8的格式存在找包的过程与上述一致找的是ts格式的文件但一般存在于xhr下面。小技巧若通过参数找不到就直接搜索m3u8,说不定可以找到终极目标是找到一个包能返回下面的界面 不同的网站这个包找的地方不同A站中搜索就可以找到腾讯视频则先要找到一个含m3u8的包从里面提取出一个链接再访问这个链接得到上面的界面。
下载时要下载为ts的视频格式多的一步是将文件合成。
可以将多个ts包合成一个下载代码 with open(斗罗大陆.mp4,modeab) as f:f.write(ts_content)
三、打包exe与制表库的使用 1.制表模块使用prettytable
from prettytable import PrettyTable
tb PrettyTable() # 实例化一个对象
tb.field_names [序号,歌手,歌名] # 设置字段名
tb.add_row([num,singer,song_name]) # 写入表格行 2. 将python文件打包成exe文件
首先在项目中下载pyinstaller包pip install pyinstaller
然后在需要打包的python文件目录路径下输入cmd 在终端输入:pyinstaller -F 文件名.py
成功后会出现dit的文件夹里面有exe的文件