当前位置: 首页 > news >正文

谷歌网站推广世界建筑设计网站

谷歌网站推广,世界建筑设计网站,软件工程学校排名,建立企业官网前言 是谁#xff0c;是谁在网页上搜索往年考试卷题答案的时候只能阅读前两页的选择题#xff0c;是谁在搜几千字的文档资料只能看25%#xff0c;是谁在百度文库找七找八的时候所有的东西都要付费才能继续看… 我先说 是我自己 我又不经常用#xff0c;只有偶尔需要看看…前言 是谁是谁在网页上搜索往年考试卷题答案的时候只能阅读前两页的选择题是谁在搜几千字的文档资料只能看25%是谁在百度文库找七找八的时候所有的东西都要付费才能继续看… 我先说 是我自己 我又不经常用只有偶尔需要看看还要我掏钱包我说不行绝对不行 什么都行 谈钱不行 咱没钱咱有技术直接让python帮我 今天就来分享下 用Python实现某du文库vip内容下载, 保存到word文档 前期准备 环境使用 python 3.8pycharm 模块使用 requests 数据请求模块 pip install requestsdocx 文档保存 pip install python-docxre 内置模块 不需要安装ctrl R 爬虫: 首先你得看得数据, 才能想办法获取 代码实现步骤 发送请求, 模拟浏览器对于url地址发送请求图片数据包: 获取数据, 获取服务器返回响应数据 开发者工具: response 解析数据, 提取图片链接地址 保存数据, 把图片内容保存到本地文件夹 做文字识别, 识别文字内容 把文字数据信息, 保存word文档里面 导入数据请求模块 import requests 导入格式化输出模块 from pprint import pprint 导入base64 import base64 导入os模块 import os 导入文档模块 from docx import Document 导入正则 import re 导入 json import json 1. 发送请求, 模拟浏览器对于url地址发送请求 长链接, 可以分段写问号前面: url链接问号后面: 请求参数/查询参数 源码.点击.领取.即可 # 确定请求链接 url https://*****.com/gsearch/rec/pcviewdocrec# 请求参数data {docId: docId,query: name,recPositions: }# 请求头headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36}#发送请求response requests.get(urlurl, paramsdata, headersheaders)# Response [200] 响应对象, 200 表示请求成功print(response)2. 获取数据, 获取服务器返回响应数据 开发者工具: response sponse.json() 获取响应json字典数据, 但是返回数据必须是完整json数据格式 花括号 {} esponse.text 获取响应文本数据, 返回字符串 任何时候都可以, 但是基本获取网页源代码的时候 response.content 获取响应二进制数据, 返回字节 保存图片/音频/视频/特定格式文件print(response.json()) 打印字典数据, 呈现一行 pprint(response.json()) 打印字典数据, 呈现多行, 展开效果3. 解析数据, 提取图片链接地址 字典取值: 键值对 根据冒号左边内容[键], 提取冒号右边的内容[值] # 定义文件名 整型 num 1 # for循环遍历, 把列表里面元素一个一个提取出来 for index in response.json()[data][relateDoc]:# index 字典呀pic index[pic]print(pic)4. 保存数据 发送请求 获取数据 二进制数据内容 # img_content requests.get(urlpic, headersheaders).content # # img\\文件夹名字 str(num)文件名 .jpg文件后缀 modewb 保存方式, 二进制保存 # # str(num) 强制转换成 字符串 # # 图片\\ 相对路径, 相对于你代码的路径 你代码在那个地方, 那个代码所在地方图片文件夹 # with open(图片\\ str(num) .jpg, modewb) as f: # # 写入数据 保存数据 把图片二进制数据保存 # f.write(img_content) # # 每次循环 1 # print(num) # num 15. 做文字识别, 识别文字内容 文字识别: 注册一个百度云API账号创建应用 并且去免费领取资源在技术文档里面 Access Token获取调用API接口做文字识别 python学习交流Q群690643772 ### 源码领取 def get_content(file):# client_id 为官网获取的AK client_secret 为官网获取的SKhost https://*****compresponse requests.get(host)access_token response.json()[access_token]通用文字识别高精度版request_url https://********.com/rest/2.0/ocr/v1/accurate_basic# 二进制方式打开图片文件f open(file, rb)img base64.b64encode(f.read())params {image:img}request_url request_url ?access_token access_tokenheaders {content-type: application/x-www-form-urlencoded}json_data requests.post(request_url, dataparams, headersheaders).json()# 列表推导式words \n.join([i[words] for i in json_data[words_result]])return words读取文件夹里面所有图片内容 content_list [] files os.listdir(img\\) for file in files: filename img\\ file words get_content(filefilename) print(words) content_list.append(words)6. 把文字数据信息, 保存word文档里面 保存word文档里面 doc Document()添加第一段文档内容 content \n.join(content_list) doc.add_paragraph(content) doc.save(data.docx)最后 今天的分享到这里就结束了 有问题的宝子可以评论区留言或者点击末尾名片进行交流学习哦
http://www.w-s-a.com/news/935402/

相关文章:

  • 网站的优缺点wordpress手机适配模板中文
  • 福州网站建设H5广告公司简介简短
  • 网站404页面的作用app开发郑州
  • 亚马逊中国网站建设目标网站建设的策划
  • 林州网站建设服务徐州网站建设
  • 如何检测网站死链景德镇网站建设哪家好
  • 旅游网站开发目标天津专业做网站公司
  • 名者观看网站快手小程序
  • 网络架构扁平化windows优化大师好不好
  • 安康养老院收费价格表兰州seo整站优化服务商
  • 网站开发技术方案模板无锡网站建设推荐
  • 自助建站系统注册三维家3d设计软件免费
  • 做seo网站标题重要吗郑州众诚建设监理有限公司网站
  • 建设网站南沙区百度关键词推广怎么做
  • 网站建设公司做销售前景好不好石家庄外贸网站制作
  • windows2008做网站网站首页打开速度
  • 做外贸要做什么网站服装设计图
  • 中山市路桥建设有限公司网站网站开发角色分配权限
  • 加强档案网站建设网站搭建好了不用会不会被攻击
  • 维护网站信息网络建设服务
  • 网站建设策划书模板下载用自己电脑配置服务器做网站
  • 360免费建站空间淘宝数据网站开发
  • 做分销的网站本地dede网站怎么上线
  • 中学网站模板北京管理咨询公司
  • 网站开发用哪个软件方便二级网站建设 管理思路
  • 个人怎么创建网站中国建设银行网站口
  • 跟知乎一样的网站做展示网站步骤
  • 邯郸网站建设效果好wordpress app 加载慢
  • 做app的网站有哪些功能广州自适应网站建设
  • 兰州建设网站的网站开源网站建设