帝国cms怎么做电影网站,中国今天最新军事新闻,非常赚又一个wordpress站点,通知模板范文目录
前言
第一大难题——找到网站入口
曲线救国 模拟搜索
第二大难题——登录
提一嘴
登录cookie获取
第一种
第二种 第四大难题——无法使用导出的cookie 原因
解决办法
最后
出现小问题
总结
下一篇博客#xff08;大部分代码实现#xff09; 前言
本章讲理…目录
前言
第一大难题——找到网站入口
曲线救国 模拟搜索
第二大难题——登录
提一嘴
登录cookie获取
第一种
第二种 第四大难题——无法使用导出的cookie 原因
解决办法
最后
出现小问题
总结
下一篇博客大部分代码实现 前言
本章讲理论后面一节讲代码
拿来练练手的练练selenium包实战一下
本来想拿来练手的没想到他喵的有挺多防爬的直接开局就困难难度我靠凸(艹皿艹 ) 找到可以爬取的网站
第一大难题——找到网站入口
但是咸鱼官方的网站已经关闭了开局就不利
闲鱼.淘宝二手 - 轻松卖闲置放心淘二手闲鱼.淘宝二手是一个社区化的二手闲置交易市场不仅支持各种同城及线上的担保交易更安全同时还有最专业的放心购二手商家让你轻松在这买卖二手闲置。https://goofish.com/ GG
曲线救国
但是后面发现可以通过淘宝手机版网页版的入口直接进入咸鱼网页版的入口反正都是爬取怎么进的不重要啦
链接放着里了怎么进别问我了
淘宝淘宝网 - 亚洲较大的网上交易平台提供各类服饰、美容、家居、数码、话费/点卡充值… 数亿优质商品同时提供担保交易(先收货后付款)等安全交易保障服务并由商家提供退货承诺、破损补寄等消费者保障服务让你安心享受网上购物乐趣https://main.m.taobao.com/index.html 好了第一大难题找到网页版入口解决了 模拟搜索
接下来就是利用python的selenium包模拟点击
右键搜索款点击检查就可以定位到该元素的xpath的路径新版的selenium有许多不同的用法我会在下一章中进行代码实现这一章主要讲解理论 然后在python代码中输入你要搜索的文字内容再回车即可
第二大难题——登录
在这一个咸鱼网页版中你必须要登录才可以 这样你就要先登录才可以访问网页
最大难题——登录界面滑块验证
提一嘴
在这个登录页面中登录页面是iframe内嵌入其中的页面的
所以你无法直接定位到登录框我搞了好久反应过来真的离谱 登录cookie获取
所以你有两种选择
第一种
直接在python中打开登录页面进入登录页面然后登录直接用selenium库中的get_cookie获取cookie并保存
登录https://passport.goofish.com/mini_login.htm?ttidh5%40iframeredirectTypeiframeRedirectreturnUrl%2F%2Fh5.m.goofish.com%2Fapp%2Fvip%2Fh5-webapp%2Flib-login-message.html%3Forigin%3Dhttps%253A%252F%252Fh5.m.goofish.comappNamexianyuappEntrancewebisMobiletrue想法相对来说不这么绕但是遗憾的是我无法登录因为登录有滑块验证我是几乎过不了的手动都不行
第二种
在正常网页中登入之后用浏览器插件提取出来
我用的是cookie editor 在网页版中正常登录可以过滑块验证
之后用插件复制出json文件并且进行粘贴 第四大难题——无法使用导出的cookie
使用代码导入是报错 assert cookie_dict[‘sameSite‘] in [‘Strict‘, ‘Lax‘] AssertionError() 原因
提取出来的cookie中samesite的值不为strict以及lax两种中的一种他就会报错
解决办法
只需要在json字典中把samesite的值全部改为Strict即可
最后
然后添加cookie然后刷新界面就可以发现搜索结果出来了
出现小问题
由于然后短时间内多次请求依旧会有阴间的滑块验证所以我推荐设置好后半小时爬取一次即可
总结
这一次实战经历真的让我遇到了selenium许多奇奇怪怪的反爬手段也是让我可以大幅度提升自己实战经验的一个经历前前后后排bug绕反爬这一个项目打了整整两天。累die 下一篇博客大部分代码实现
用python来爬取某鱼的商品信息2/2_木木em哈哈的博客-CSDN博客首先要说的是这个通过python不如通过app抓包来的稳定页面中你登录的cookie的失效时间是不确定的所以你可能需要经常更新cookie看个人情况无法频繁比如5分钟一次搜索否则会跳滑块验证或者你有多个账号也可以搞大概也就这个流程写出来的代码只是提取出来网页源代码——其实都提取出网页源代码了使用就只有一个筛选了csdn上有大把的优质博主和大佬教你通过源代码过滤有用的信息当然如果需要的话我可以再水一篇博客。https://blog.csdn.net/mumuemhaha/article/details/132260466?spm1001.2014.3001.5501