当前位置: 首页 > news >正文

内网网站建设汇报网络推广方案100例

内网网站建设汇报,网络推广方案100例,江苏省城乡建筑信息网,临沂网站制作公司哪家好文章目录 使用代码 使用 自己工作需要#xff0c;分享出来#xff0c;刚刚修改完。 知需要修改keyword就可以完成自动搜索和下载同时翻页。 但是需要安装Chrome#xff0c;也支持linux爬虫#xff0c;也要安装linux Chrome非可视化版。 代码 import selenium.webdriver … 文章目录 使用代码 使用 自己工作需要分享出来刚刚修改完。 知需要修改keyword就可以完成自动搜索和下载同时翻页。 但是需要安装Chrome也支持linux爬虫也要安装linux Chrome非可视化版。 代码 import selenium.webdriver as webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver import Chrome, ChromeOptions import time import json import pandas as pd import requestspapers_info_list [] one_paper {}keyword 你的query # 搜索关键词# 设置options参数以开发者模式运行 option ChromeOptions() option.add_experimental_option(excludeSwitches, [enable-automation])# 解决报错设置无界面运行 option.add_argument(--no-sandbox) option.add_argument(--disable-dev-shm-usage) option.add_argument(blink-settingsimagesEnabledfalse) # 不加载图片, 提升速度 option.add_argument(--headless) option.add_argument(--disable-gpu) # 谷歌文档提到需要加上这个属性来规避buguser_agent Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 option.add_argument(fuser-agent{user_agent})url https://kns.cnki.net/kns8s/defaultresult/index?crossidsYSTT4HG0%2CLSTPFY1C%2CJUP3MUPD%2CMPMFIG1A%2CWQ0UVIAA%2CBLZOG7CK%2CEMRPGLPA%2CPWFIRAGL%2CNLBO1Z6R%2CNN3FJMUVkorderSUkw str(keyword) driver webdriver.Edge(option) driver.get(url)while (True):# 等待新界面加载完毕time.sleep(3)papers driver.find_elements(By.XPATH, //div[idgridTable]//table[classresult-table-list]/tbody/tr)basestr //div[idgridTable]//table[classresult-table-list]/tbody/trfor i, li in enumerate(papers):# passname li.find_element(By.CSS_SELECTOR, valuetd.name a).textname_link li.find_element(By.CSS_SELECTOR, valuetd.name a).get_attribute(href)author li.find_element(By.CSS_SELECTOR, valuetd.author).textsource li.find_element(By.CSS_SELECTOR, valuetd.source a).textsource_link li.find_element(By.CSS_SELECTOR, valuetd.source a).get_attribute(href)print(source_link)date li.find_element(By.CSS_SELECTOR, valuetd.date).text # 发表日期data li.find_element(By.CSS_SELECTOR, valuetd.data).text # 数据库来源try:quote li.find_element(By.CSS_SELECTOR, valuetd.quote).textexcept:quote Nonetry:downloadCount li.find_element(By.CSS_SELECTOR, valuetd.download).textexcept:downloadCount Nonetry:operat li.find_element(By.CSS_SELECTOR, valuetd.operat a.downloadlink.icon-download)href operat.get_attribute(href) # caj下载链接except:href Noneprint(\n\n\n)print(文章名称, name) # 文章名字print(作者, author) # 作者名字print(文章来源, source) # 文章来源# print(source_link) # 期刊链接print(发表日期, date) # 发表日期print(数据库, data) # 数据库if quote: print(被引次数: , quote) # 引用次数if downloadCount: print(下载次数: , downloadCount) # 下载次数# 查看文章详细信息new_driver webdriver.Chrome(option)new_driver.get(name_link)try:institute new_driver.find_element(By.CSS_SELECTOR, valuediv.brief h3:nth-last-child(1)).text # 机构信息except:institute 无机构信息print(机构: , institute)try:infos new_driver.find_elements(By.CSS_SELECTOR, valuediv.doc-top div.row)except:infos []for info in infos:print(info.text.strip()) # 摘要、关键词等信息try:pdf_link new_driver.find_element(By.CSS_SELECTOR, value#pdfDown).get_attribute(href)except:pdf_link print(pdf下载地址: , pdf_link) # pdf下载地址该pdf地址似乎直接复制到浏览器会报错说应用来源错误...所以下面直接点击按钮实现自动下载pdftext requests.get(pdf_link)with open(./pdf/ name .pdf, wb) as f:f.write(text.content)f.close()time.sleep(3) # 等待页面加载完毕new_driver.find_element(By.CSS_SELECTOR, value#pdfDown).click()time.sleep(3) # 等待pdf下载完毕# 查看期刊详细信息new_driver2 webdriver.Chrome(option)new_driver2.get(source_link)# infobox new_driver.find_element(By.XPATH, //*[idqk]//dd[classinfobox])try:new_driver2.find_element(By.XPATH, //a[idJ_sumBtn-stretch]).click() # 展开详细信息except:pass # 无需展开try:listbox new_driver2.find_element(By.XPATH, //dd[classinfobox]/div[classlistbox clearfix])text listbox.textexcept:text 本期刊缺乏信息print(--------本期刊详细信息---------)print(期刊名, source)print(text) # 期刊详细信息new_driver2.quit()new_driver.quit()# 模拟点击下一页try:driver.find_element(By.XPATH, //*[idPageNext]).click()except:breakdriver.quit()
http://www.w-s-a.com/news/779518/

相关文章:

  • 上传文件网站根目录wordpress博客管理
  • 网站seo优缺点网站建设公司咨
  • 网站设计需要会什么建设网站的目的以及意义
  • 怎么样推广自己的网站wordpress register_form
  • 网站公司建站凤翔网站建设
  • 网站建设协低价格的网站建设公司
  • 研发网站建设报价深圳网站建设前十名
  • 宠物发布网站模板wordpress中文免费电商模板
  • 济南做网站创意服装品牌策划公司
  • 本地电脑做视频网站 外网连接不上软件商城源码
  • 足球直播网站怎么做crm系统介绍
  • 株洲网站建设联系方式东莞凤岗网站制作
  • 小纯洁网站开发如何注册域名
  • 网上做试卷的网站如何把刚做的网站被百度抓取到
  • 滕州网站建wordpress用户中心按钮不弹出
  • 清远新闻最新消息福建seo搜索引擎优化
  • 凡客建站网微信网站怎么做的
  • 网站建设费怎么写会计科目行业网站建设公司
  • 网站里的友情链接网站建设个人简历的网页
  • 佛山自助建站软件湖南seo优化推荐
  • 免费微信微网站模板下载不了优化人员配置
  • wordpress 导航网站主题画流程图的网站
  • 皮卡剧网站怎样做排名网
  • 网站开发 兼职哪个网站是做安全教育
  • 商品展示类网站怎么用群晖nas做网站
  • 长腿蜘蛛wordpresssem优化推广
  • 中国铁路建设监理协会官方网站深圳福田区怎么样
  • 互联网网站开发发展wordpress文章自定义栏目
  • 众筹网站平台建设工信部网站备案系统
  • 网站301重定向代码wordpress 加子目录