当前位置: 首页 > news >正文

wordpress写的网站东莞哪里的网站建设效果好

wordpress写的网站,东莞哪里的网站建设效果好,免费微网站,dede采集规则下载网站现在越来越多的网站已经能够通过JA3或者其他指纹信息#xff0c;来识别你是不是爬虫了。传统的方式比如换UA#xff0c;加代理是没有任何意义了#xff0c;所以这个时候我们就需要使用到curl_cffi 了。 1.TLS 指纹是啥#xff1f; 在绝大多数的网站都已经使用了 HTTPS来识别你是不是爬虫了。传统的方式比如换UA加代理是没有任何意义了所以这个时候我们就需要使用到curl_cffi 了。 1.TLS 指纹是啥 在绝大多数的网站都已经使用了 HTTPS要建立 HTTPS 链接服务器和客户端之间首先要进行 TLS 握手在握手过程中交换双方支持的 TLS 版本加密算法等信息。不同的客户端之间的差异 很大而且一般这些信息还都是稳定的所以服务端就可以根据 TLS 的握手信息来作为特征识别 一个请求是普通的用户浏览器访问还是来自 Python 脚本等的自动化访问。 JA3 是生成 TLS 指纹的一个常用算法。它的工作原理也很简单大概就是把以上特征拼接并求 md5。 查看 tls 指纹的网站有 https://tls.browserleaks.com/jsonTrackMe | Homehttps://kawayiyi.com/tls 不同网站的生成的指纹可能有差异但是多次访问同一个网站生成的指纹是稳定的而且能区分开 不同客户端。下文以第一个网站为例。 2.直接安装 pip install curl_cffi功能简介 支持JA3/TLS和http2指纹模拟比requests/tls_client快分开和aiohttp/pycurl的速度比肩预编译不需要自己的机器上再弄一遍支持asyncio并且每个请求都可以换代理修改请求的API支持http 2.0模仿requests。 先来看一段代码 import requests from pprint import pprint headers {accept: text/html,application/xhtmlxml,application/xml;q0.9,image/webp,image/apng,*/*;q0.8,application/signed-exchange;vb3;q0.7,accept-language: zh-CN,zh;q0.9,en;q0.8,en-GB;q0.7,en-US;q0.6,cache-control: no-cache,dnt: 1,pragma: no-cache,sec-ch-ua: Chromium;v118, Microsoft Edge;v118, NotA?Brand;v99,sec-ch-ua-mobile: ?0,sec-ch-ua-platform: macOS,sec-fetch-dest: document,sec-fetch-mode: navigate,sec-fetch-site: same-origin,sec-fetch-user: ?1,upgrade-insecure-requests: 1,user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.46, }response requests.get(https://tls.browserleaks.com/json, headersheaders) pprint(response.json())运行效果 这是直接使用Requests发起的请求。你可以试一试加上代理以后这里的ja3_hash并不会发生变化。并且akamai_hash和akamai_text都是空。这个特征是非常明显的网站直接根据这些特征就可以屏蔽你的爬虫。 于是为了完美模拟浏览器国外大佬开发出了 curl-impersonate将 curl 底层依赖的库全部换成了浏览器使用的库并且版本也是一致的这样生成的指纹就和浏览器完全一样了。 而 curl_cffi 正是 curl-impersonate 的 Python binding我们直接使用 pip 安装即可。 那这个问题咋解决尼 只需要 把 import requests 改成 from curl_cffi import requests。最后在requests.get中加一个参数impersonatechrome110 代码如下 # import requests from curl_cffi import requests from pprint import pprint headers {accept: text/html,application/xhtmlxml,application/xml;q0.9,image/webp,image/apng,*/*;q0.8,application/signed-exchange;vb3;q0.7,accept-language: zh-CN,zh;q0.9,en;q0.8,en-GB;q0.7,en-US;q0.6,cache-control: no-cache,dnt: 1,pragma: no-cache,sec-ch-ua: Chromium;v118, Microsoft Edge;v118, NotA?Brand;v99,sec-ch-ua-mobile: ?0,sec-ch-ua-platform: macOS,sec-fetch-dest: document,sec-fetch-mode: navigate,sec-fetch-site: same-origin,sec-fetch-user: ?1,upgrade-insecure-requests: 1,user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.46, }response requests.get(https://tls.browserleaks.com/json, headersheaders, impersonatechrome110) pprint(response.json())这次再运行下代码 这次可以看到akamai_hash 和 akamai_text 已经都有了网站已经无法识别你的爬虫了。在网站看来这只是一个Chrome 110版本发起的请求。甚至Akamai需要的签名也都有了。 支持使用 Sessions session requests.Session()也支持使用代理 proxies {https: xxxxx:7890} proxiesproxies支持模拟的浏览器版本 chrome99、chrome100、chrome101、chrome104、chrome107、chrome110、chrome99_android、edge99、edge101、safari15_3、safari15_5 同样它也支持asyncio示例代码如下所示 from curl_cffi.requests import AsyncSessionasync with AsyncSession() as s:r await s.get(https://example.com)要使用异步写法时代码如下 import asyncio from curl_cffi.requests import AsyncSessionurls [https://googel.com/,https://facebook.com/,https://twitter.com/, ]async def main():async with AsyncSession() as s:tasks []for url in urls:task s.get(https://example.com)tasks.append(task)results await asyncio.gather(*tasks)asyncio.run(main())我们以这个网站为例: https://apk.support/ 分析下 浏览器抓包是能看到页面返回的关键数据但是再把这个请求放到postman 发个请求试一下 Just a moment...完蛋凉了 标志性的5s盾。 咋办 用curl_cffi 发个请求试一试 代码如下 # import requests from curl_cffi import requests url https://apk.support/search?qapppayload{} headers {authority: apk.support,accept: text/html,application/xhtmlxml,application/xml;q0.9,image/avif,image/webp,image/apng,*/*;q0.8,application/signed-exchange;vb3;q0.7,accept-language: zh-CN,zh;q0.9,en;q0.8,cache-control: no-cache,pragma: no-cache,referer: https://apk.support/search?qapp,sec-ch-ua-mobile: ?0,sec-ch-ua-platform: macOS,sec-fetch-dest: document,sec-fetch-mode: navigate,sec-fetch-site: same-origin,sec-fetch-user: ?1,upgrade-insecure-requests: 1,user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 } proxies {http: http://127.0.0.1:7890,https: http://127.0.0.1:7890 } response requests.get(urlurl, headersheaders, impersonatechrome110, proxiesproxies)print(response.text)看看效果 可以看到返回的已经是正常数据不再是5s盾了。 参考链接 https://mp.weixin.qq.com/s/Ch7taYpD-dnNL2FLOuxgGA https://blog.csdn.net/qiulin_wu/article/details/134180011 https://blog.csdn.net/resphina/article/details/132507212 https://www.jb51.net/python/302044jai.htm
http://www.w-s-a.com/news/535829/

相关文章:

  • 南通网站建设制作公司苏州好的网站公司名称
  • 咸阳做网站开发公司哪家好珠海公司制作网站
  • 深圳网站建设好不好医疗网站前置审批
  • 做ic什么网站好安溪网站建设
  • 网站建设 慕课企业文化标语经典
  • 做短视频的网站都有哪些简约 时尚 高端 网站建设
  • 浦口区网站建设售后服务建设一个网站多少钱
  • 做个小网站大概多少钱广州h5网站
  • 360免费建站视频wordpress标签显示图片
  • 创建简易个人网站国外做网站被动收入
  • 轻定制网站建设网页培训哪个机构好
  • 青岛海诚互联做网站好吗计算机软件开发培训机构
  • 德钦网站建设如何在网站上做用工登记
  • 创意品牌网站云服务
  • 个人备案网站可以做商城展示如何制作网页二维码
  • 网站建设php教程视频百度seo 站长工具
  • 外包小程序两个相同的网站对做优化有帮助
  • 网站备案主体修改wordpress 导航图片
  • 怎么建设网站数据库用vs代码做网站
  • 运营企业网站怎么赚钱动漫制作专业概念
  • 宜春网站建设推广网络推广工作好干吗
  • 网站程序0day平顶山市做网站
  • 企业网站名称怎么写哔哩哔哩网页版官网在线观看
  • 直播网站建设书籍阿里巴巴网站建设销售
  • 肇庆企业自助建站系统郴州网站建设解决方案
  • 长沙专业做网站排名游戏开发大亨内购破解版
  • 网站推广适合女生做吗网站如何开启gzip压缩
  • 做外单阿里的网站建站平台那个好
  • 全国性质的网站开发公司关于网站开发的请示
  • 齐齐哈尔住房和城乡建设局网站生物科技公司网站模板