当前位置: 首页 > news >正文

cvm可以做网站服务器吗单页产品网站源码带后台

cvm可以做网站服务器吗,单页产品网站源码带后台,公共信息服务平台,郑州网络推广团队网络爬虫—字体反爬 一字体反爬原理二字体反爬模块FonttoolsTTF文件 三FontCreator 14.0.0.2790FontCreatorPortable下载与安装 四实战演示五后记 前言#xff1a; #x1f3d8;️#x1f3d8;️个人简介#xff1a;以山河作礼。 #x1f396;️#x1f396;️:Python领域… 网络爬虫—字体反爬 一·字体反爬原理二·字体反爬模块FonttoolsTTF文件 三·FontCreator 14.0.0.2790FontCreatorPortable下载与安装 四·实战演示五·后记 前言 ️️个人简介以山河作礼。 ️️:Python领域新星创作者CSDN实力新星认证 ​第一篇文章《1.认识网络爬虫》获得全站热榜第一python领域热榜第一。 第四篇文章《4.网络爬虫—Post请求(实战演示)》全站热榜第八。 第八篇文章《8.网络爬虫—正则表达式RE实战》全站热榜第十二。 第十篇文章《10.网络爬虫—MongoDB详讲与实战》全站热榜第八领域热榜第二 第十三篇文章《13.网络爬虫—多进程详讲(实战演示)》全站热榜第十二。 第十四篇文章《14.网络爬虫—selenium详讲》测试领域热榜第二十。 《Python网络爬虫》专栏累计发表十五篇文章上榜六篇。欢迎免费订阅欢迎大家一起学习一起成长 悲索之人烈焰加身堕落者不可饶恕。永恒燃烧的羽翼带我脱离凡间的沉沦。 一·字体反爬原理 Python字体反爬原理是指爬虫在爬取网站数据时遇到了基于字体反爬的防护措施。这种反爬措施是通过将网站的文字转换成特定的字体文件然后在页面上引用该字体文件来显示文字使得爬虫无法直接获取文字内容。 具体原理如下 网站将需要显示的文字转换成特定的字体文件通常是TrueType或OpenType格式的字体文件。 网站在页面上引用该字体文件并使用CSS样式将需要显示的文字的字体设置为该字体文件。 爬虫在获取页面源代码时无法直接获取到需要显示的文字内容只能获取到字体文件的引用地址。 爬虫可以通过下载字体文件并解析其中的映射关系将字体文件中的编码与对应的文字内容进行匹配从而获取到需要显示的文字内容。 为了增加反爬难度网站通常会对字体文件进行加密或混淆使得爬虫无法直接解析。 为了应对这种反爬措施爬虫可以采用以下方法 下载字体文件并解析映射关系从而获取需要显示的文字内容。 使用OCR技术对图片中的文字进行识别从而获取需要显示的文字内容。 使用第三方库或工具对字体文件进行解密或混淆从而获取需要显示的文字内容。 需要注意的是字体反爬技术是一种比较高级的反爬措施需要爬虫具备一定的技术水平才能应对。此外爬虫在使用字体反爬技术时也需要注意遵守相关法律法规和网站的使用规定。 二·字体反爬模块Fonttools 安装Fonttools pip install fonttools如图所示表示安装完成! FontTools是一个开源的Python库用于处理和转换字体文件。它可以读取和写入OpenTypeOTF和TrueTypeTTF字体文件以及其他各种字体格式。FontTools可以用于许多用途。 例如 字体编辑可以使用FontTools来修改字体文件中的字形、轮廓、度量等属性。 字体转换可以将字体文件从一种格式转换为另一种格式例如将TTF文件转换为OTF文件。 字体分析可以使用FontTools来分析字体文件中的元数据、字符集、度量等属性以便于字体设计和排版。 TTF文件 TTF文件是TrueType字体文件是一种字体文件格式通常用于在计算机和打印机上显示文本。它是一种可缩放的字体可以在不失真的情况下进行缩放。TTF文件通常具有.ttf文件扩展名可以在Windows、Mac和Linux等操作系统中使用。 三·FontCreator 14.0.0.2790 FontCreator 14.0.0.2790是一款专业的字体设计软件由高级字体编辑器、字形插值器、字体转换器等多个工具组成。 它可以帮助用户创建自定义的字体包括TrueType、OpenType、Web字体等多种格式。FontCreator14.0.0.2790提供了一个友好的用户界面使得用户能够轻松地创建、编辑和修复字形、设置字符间距、调整字体度量等。还支持多语言字体设计用户可以添加和修改各种字符集。FontCreator 14.0.0.2790还可以进行字体转换将不同格式的字体文件相互转换方便用户在不同场景下使用。 FontCreatorPortable下载与安装 点击FontCreator 14.0.0.2790进入即可下载 提取码a3e8 下载完成后是这样的 打开需要查看的ttf文件 如图所示被编码的文字 每一个编码对应一个图对下面这些01234567这些对不是字体而是一张图所以在后续解码操作中我们需要手动输入这些数据。 四·实战演示 本次实战以某招聘网站为目标获取其中数据并对字体加密进行破解操作 如图所示 我们想要爬取的数据被加密我们来一步一步对其进行破解。 先按正常方式将数据获取到本地 # coding utf-8 import crawlesurl https://www.shixiseng.com/app/interns/search/v2cookies {RANGERS_WEB_ID: 7222273943993026082,RANGERS_SAMPLE: 0.797004667731563,adCloseOpen: true,utm_source_first: PC,Hm_lvt_03465902f492a43ee3eb3543d81eba55: 1681566719,1681626579,adClose: true,SXS_XSESSION_ID: \2|1:0|10:1681626608|15:SXS_XSESSION_ID|48:ZmIzNDc2MDgtM2MxOS00ZGMzLTg1OWYtZjZmZjliODI3ODBm|e0c74e6e5b304e78720e68feddc1ebc596b09b541b03cab0ad8f542aa7782cf4\,SXS_XSESSION_ID_EXP: \2|1:0|10:1681626608|19:SXS_XSESSION_ID_EXP|16:MTY4MTcxMzAwOA|f0de0b3a4d7235bb497a86fab85289c792654792ec9114ede5cd4e213074f3ab\,position: pc_search_syss,utm_source: PC,utm_campaign: PC,Hm_lpvt_03465902f492a43ee3eb3543d81eba55: 1681640297, }headers {authority: www.shixiseng.com,accept: application/json, text/plain, */*,accept-language: zh-CN,zh;q0.9,cache-control: no-cache,content-type: application/x-www-form-urlencoded,pragma: no-cache,referer: https://www.shixiseng.com/interns?page2typeinternkeyword%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98areamonthsdaysdegreeofficialenterprisesalary-0publishTimesortTypecity%E5%85%A8%E5%9B%BDinternExtend,sec-ch-ua: \Chromium\;v\112\, \Google Chrome\;v\112\, \Not:A-Brand\;v\99\,sec-ch-ua-mobile: ?0,sec-ch-ua-platform: \Windows\,sec-fetch-dest: empty,sec-fetch-mode: cors,sec-fetch-site: same-origin,user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36, }params {build_time: 1681640300905,page: 1,type: intern,keyword: 数据挖掘,area: ,months: ,days: ,degree: ,official: ,enterprise: ,salary: -0,publishTime: ,sortType: ,city: 全国,internExtend: , }response crawles.get(url, headersheaders, paramsparams, cookiescookies) response crawles.get(url, headersheaders, paramsparams, cookiescookies) print(response.text) for i in response.json[msg][data]:print(i)这是我们通过代码获取到本地的数据 接下来我们需要找到解密用的文件,在这里面找关于font的文件 font-face { font-family: myFont; src: url(/interns/iconfonts/file?rand0.7027418610803815);}对获取的链接发起请求(获取字体文件帮助我们对加密文件进行解码) # font字体文件 # 1查找相关链接或者文本 # 2.获取文件url font-face { font-family: myFont; src: url(/interns/iconfonts/file?rand0.7027418610803815);} # 3.对获取的链接发起请求(获取字体文件帮助我们对加密文件进行解码)# #xee6f#xe159#xe159 import requests# 将请求到的数据存放到内存中以便其他地方直接使用import io from fontTools.ttLib import TTFontfont_file_uel https://www.shixiseng.com/interns/iconfonts/file # 将请求到的数据存放到内存中以便其他地方直接使用 ttf TTFont(io.BytesIO(requests.get(font_file_uel).content)) # 将获取的数据保存到ttf文件中ttf.save(sxs.ttf)然后我们得到一个ttf文件我们使用上面安装的软件对该文件进行查看。 我们将上述数据换成xml来查看方便我们对其解码操作 # font字体文件 # 1查找相关链接或者文本 # 2.获取文件url font-face { font-family: myFont; src: url(/interns/iconfonts/file?rand0.7027418610803815);} # 3.对获取的链接发起请求(获取字体文件帮助我们对加密文件进行解码)# #xee6f#xe159#xe159 import requests# 将请求到的数据存放到内存中以便其他地方直接使用import io from fontTools.ttLib import TTFontfont_file_uel https://www.shixiseng.com/interns/iconfonts/file # 将请求到的数据存放到内存中以便其他地方直接使用 ttf TTFont(io.BytesIO(requests.get(font_file_uel).content)) # 将获取的数据保存到ttf文件中# ttf.save(sxs.ttf)ttf.saveXML(sxs.xml) 我们的思路如下将加密字体一步一步转成我们需要的字体然后再获取出来 #xe283 - 0xe283 - uni30 - 数据索引 - 文字 #xe714 - 0xe714 - uni35 - 7 - 5 import ref open(sxs.xml, r, encodingutf-8) # 将数据读取出来 file_data f.read() f.close()x re.findall(map code0x(.*?) name(.*?)/, file_data) glyph re.findall(GlyphID id(.*?) name(.*?)/, file_data)glyph_dict {k: v for v, k in glyph}str_data 0123456789一师x会四计财场DHLPT聘招工d周L端p年hx设程二五天tXG前KO网SWcgkosw广市月个BF告NRVZ作bfjnrvz三互生人政AJEI件M行QUYaeim软qu银y联 str_list [ , ] [i for i in str_data]x_dict {f#x{k}: str_list[int(glyph_dict[v])] for k, v in x} print(x_dict)如上图所示我们解密了一部分字体来展示如何操作现在对整个网页的加密数据进行字体解密操作解密后的数据如图所示我们对有用的数据进行整理 整理后的数据如下 完整代码: import crawles import json import re import requests import io from fontTools.ttLib import TTFont # pip install fonttoolsurl https://www.shixiseng.com/app/interns/search/v2cookies {RANGERS_WEB_ID: 7222273943993026082,RANGERS_SAMPLE: 0.797004667731563,adCloseOpen: true,utm_source_first: PC,Hm_lvt_03465902f492a43ee3eb3543d81eba55: 1681566719,1681626579,adClose: true,SXS_XSESSION_ID: \2|1:0|10:1681626608|15:SXS_XSESSION_ID|48:ZmIzNDc2MDgtM2MxOS00ZGMzLTg1OWYtZjZmZjliODI3ODBm|e0c74e6e5b304e78720e68feddc1ebc596b09b541b03cab0ad8f542aa7782cf4\,SXS_XSESSION_ID_EXP: \2|1:0|10:1681626608|19:SXS_XSESSION_ID_EXP|16:MTY4MTcxMzAwOA|f0de0b3a4d7235bb497a86fab85289c792654792ec9114ede5cd4e213074f3ab\,position: pc_search_syss,utm_source: PC,utm_campaign: PC,Hm_lpvt_03465902f492a43ee3eb3543d81eba55: 1681640297, }headers {authority: www.shixiseng.com,accept: application/json, text/plain, */*,accept-language: zh-CN,zh;q0.9,cache-control: no-cache,content-type: application/x-www-form-urlencoded,pragma: no-cache,referer: https://www.shixiseng.com/interns?page2typeinternkeyword%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98areamonthsdaysdegreeofficialenterprisesalary-0publishTimesortTypecity%E5%85%A8%E5%9B%BDinternExtend,sec-ch-ua: \Chromium\;v\112\, \Google Chrome\;v\112\, \Not:A-Brand\;v\99\,sec-ch-ua-mobile: ?0,sec-ch-ua-platform: \Windows\,sec-fetch-dest: empty,sec-fetch-mode: cors,sec-fetch-site: same-origin,user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36, }params {build_time: 1681640300905,page: 1,type: intern,keyword: 数据挖掘,area: ,months: ,days: ,degree: ,official: ,enterprise: ,salary: -0,publishTime: ,sortType: ,city: 全国,internExtend: , }response crawles.get(url, headersheaders, paramsparams, cookiescookies) text response.text # 存储ttf文件 用于分析和后续操作 font_file_uel https://www.shixiseng.com/interns/iconfonts/file # 将请求到的数据存放到内存中以便其他地方直接使用 ttf TTFont(io.BytesIO(requests.get(font_file_uel).content)) # ttf.save(sxs.ttf) ttf.saveXML(sxs.xml)# 读取xml文件 f open(sxs.xml, r, encodingutf-8) file_data f.read() f.close()x re.findall(map code0x(.*?) name(.*?)/, file_data)glyph re.findall(GlyphID id(.*?) name(.*?)/, file_data) glyph_dict {k: v for v, k in glyph}str_data 0123456789一师x会四计财场DHLPT聘招工d周L端p年hx设程二五天tXG前KO网SWcgkosw广市月个BF告NRVZ作bfjnrvz三互生人政AJEI件M行QUYaeim软qu银y联 str_list [ , ] [i for i in str_data]x_dict {f#x{k}: str_list[int(glyph_dict[v])] for k, v in x} # print(x_dict)# 对整个文本数据进行替换解码操作 for k, v in x_dict.items():text text.replace(k, v)# 将数据转化回方便使用的格式 text_1 json.loads(text)for item in text_1[msg][data]:max_salary item[maxsal] 元/天 # 最高薪资min_salary item[minsal] 元/天 # 最低薪资city item[city] # 所在城市scale item[scale] # 公司规模degree item[degree] # 学历要求c_tags item[c_tags] # 公司标签i_tags item[i_tags] # 实习标签name item[name] # 职位名称industry item[industry] # 所属行业print(最高薪资, max_salary)print(最低薪资, min_salary)print(所在城市, city)print(公司规模, scale)print(学历要求, degree)print(公司标签, c_tags)print(实习标签, i_tags)print(职位名称, name)print(所属行业, industry)print(text_1) 五·后记 本专栏所有文章是博主学习笔记仅供学习使用爬虫只是一种技术希望学习过的人能正确使用它。 博主也会定时一周三更爬虫相关技术更大家系统学习如有问题可以私信我没有回那我可能在上课或者睡觉写作不易感谢大家的支持
http://www.w-s-a.com/news/157147/

相关文章:

  • 重庆 网站开发天津住房和城乡建设厅官方网站
  • 泰安高级网站建设推广厦门高端网站建设定制
  • jsp网站开发引用文献手机seo排名
  • 创建一家网站如何创设计网页的快捷网站
  • 1688代加工官方网站h5开发教程
  • 静态网站源码下载网站怎么显示备案号
  • 网站代码设计网站开发维护任职要求
  • 长寿做网站的电话怎么快速刷排名
  • 上海市中学生典型事例网站邯郸全网推广
  • 厦门网站建设680元好男人的最好的影院
  • 石家庄网站建设设计产品设计专业就业前景
  • 网站移动排名做最好最全的命理网站
  • 网站怎么防黑客杭州市做外贸网站的公司
  • 网站推广公司认准乐云seo易语言做网站登录
  • 配色设计网站推荐网站下拉菜单重叠
  • 内容展示型网站特点在北京注册公司需要多少钱
  • h5网站源代码创意设计理念
  • 岳阳网站开发服务推广运营平台
  • 网站开发得多长时间湖南建设人力资源网证书查询
  • 论坛网站开发网络营销是什么时候产生的
  • 帮人做网站赚钱无忧软文网
  • 做网站要不要营业执照重庆网站优化seo公司
  • 学院宣传网站建设简介做网站没灵感
  • 网站建设终稿确认书网站意义学校
  • 3小时网站建设平台专业制作教学课件
  • 曲阜网站建设百度开户现货黄金什么网站可以做直播
  • 比较好的企业建站平台小程序开发外包该注意些什么
  • 建行官网官网网站吗二次元风格wordpress模板
  • 怎样开通自己的网站网址导航哪个主页最好
  • 大良o2o网站建设详情页设计说明怎么写