当前位置: 首页 > news >正文

网站建设总体情况江苏同邦建设有限公司网站

网站建设总体情况,江苏同邦建设有限公司网站,物流网站给做软件,长春什么时候解封一. 使用bs4解析网页 下载bs4 - pip install beautifulsoup4 使用的时候 import bs4专门用于解析网页的第三方库 在使用bs4的时候往往会依赖另一个库lxml pip install lxml 网页代码 !DOCTYPE html htmlheadmeta charsetutf-8 下载bs4 - pip install beautifulsoup4 使用的时候 import bs4专门用于解析网页的第三方库 在使用bs4的时候往往会依赖另一个库lxml pip install lxml网页代码 !DOCTYPE html htmlheadmeta charsetutf-8titleTitle/title/headbodyh2电影大全/h2div idbox1div classitemp肖生克的救赎/pspan评分/spanspan classscore9.7/span/divdiv classitemp霸王别姬/pspan评分/spanspan classscore9.6/span/divdiv classitemp阿甘正传/pspan评分/spanspan classscore9.5/span/divimg srchttps://img9.doubanio.com/view/photo/s_ratio_poster/public/p457760035.webp classdiv idbox2divp我是段落1/p/div/div/div/body /html对以上代码进行操作 from bs4 import BeautifulSoup # bs4 用法 # 1.准备需要解析的数据 html open(for_bs4.html,encodingutf-8).read()# 2.生成基于网页源代码的bs4对象 soup BeautifulSoup(html,lxml)# 3.获取标签 # soup.select() 在整个网页中获取css选择器选中的所以标签 #soup.select_one() 在整个网页中获取css选择器中的第一个标签result soup.select(#box1 p) print(result) result1 soup.select_one(#box1 p) print(result1) 总结标签对象.select(css选择器) 获取css选择器所有标签返回一个列表列表中元素是标签对象标签对象.select_one(css选择器) 获取第一个标签结果是标签对象 result3 soup.select(p) #print(result3)result4 soup.select(#box2) #print(result4)#4. 获取标签内容和标签属性 p soup.select_one(p) img soup.select_one(img)# a.获取标签内容 标签对象.text print(p.text) #肖申克的救赎 # b. 获取标签的属性值 print(img.attrs[src]) # https://b0.bdstatic.com/ugc/mFgjRS-3T9fHnYC3CAxHHwba8a3cbd3af3e42ddda89fa78b831a5f.jpgh_1280 二. 爬取豆瓣电影的信息 from bs4 import BeautifulSoup import requests import csv# 1.获取网页数据 def get_net_data(url: str):# headers进行伪装成正常的浏览器访问headers {User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36}# 获取网页代码信息response requests.get(urlurl, headersheaders)# 返回解析后的代码信息return response.text# 2.解析网页数据 # ol classgrid_view -li -div .item #这里的html 就是第一步中解析网页代码后的信息 def analyse_data(html: str):# 生成基于网页源代码的bs4对象soup BeautifulSoup(html, lxml)# 将所需要的电影信息代码块都获取下来all_films_div soup.select(.grid_viewli.item)all_data []# 遍历每一个代码块一个代码块都是一部电影的具体信息for div in all_films_div:name div.select_one(.title).textinfo div.select_one(.bdp).text.strip().split(\n)[-1].strip()time, country, category info.split(/)score div.select_one(.rating_num).textcomment_count div.select(.starspan)[-1].text[:-3]intro div.select_one(.inq).textall_data.append([name, score, time.strip(), country.strip(), category.strip(), comment_count, intro])f open(../files/第一页电影数据.csv,w,encodingutf-8,newline)#创建一个 CSV 文件写入器并将其关联到一个已经打开的文件对象 f 上就是在创建的第一页数据电影文件中准备录入信息writer csv.writer(f)# 写的是表头 writerow 只写一行writer.writerow([电影名字,评分,上映时间,发行国家地区,类型,评论人数,简介])# csv文件中写入内容writer.writerows(all_data)if __name__ __main__:# for q in range(0, 251, 25):# url1 fhttps://movie.douban.com/top250?start{q}filterresult get_net_data(urlhttps://movie.douban.com/top250) #返回的是 response.textanalyse_data(result) 三. 爬取250部电影二只爬取了第一页内容网站有很多页 from bs4 import BeautifulSoup import requests import csv# 1.获取网页数据 def get_net_data(url: str):# headers进行伪装成正常的浏览器访问headers {User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36}# 获取网页代码信息response requests.get(urlurl, headersheaders)# 返回解析后的代码信息return response.text# 2.解析网页数据 # ol classgrid_view -li -div .item #这里的html 就是第一步中解析网页代码后的信息 def analyse_data(html: str):# 生成基于网页源代码的bs4对象soup BeautifulSoup(html, lxml)# 将所需要的电影信息代码块都获取下来all_films_div soup.select(.grid_viewli.item)all_data []# 遍历每一个代码块一个代码块都是一部电影的具体信息for div in all_films_div:name div.select_one(.title).textinfo div.select_one(.bdp).text.strip().split(\n)[-1].strip()time, country, category info.split(/)score div.select_one(.rating_num).textcomment_count div.select(.starspan)[-1].text[:-3]intro div.select_one(.inq).textall_data.append([name, score, time.strip(), country.strip(), category.strip(), comment_count, intro])f open(../files/250部电影数据.csv,w,encodingutf-8,newline)#创建一个 CSV 文件写入器并将其关联到一个已经打开的文件对象 f 上就是在创建的第一页数据电影文件中准备录入信息writer csv.writer(f)# 写的是表头 writerow 只写一行writer.writerow([电影名字,评分,上映时间,发行国家地区,类型,评论人数,简介])# csv文件中写入内容writer.writerows(all_data) 在这里有所改变看下面代码上面都一样if __name__ __main__:for page in range(0, 250, 25):url fhttps://movie.douban.com/top250?start{page}filterresult get_net_data(urlurl) #返回的是 response.textanalyse_data(result) 四. os模块看创建的文件是否存在不存在进行创建这是避免使用open的时候出现文件不存在的报错 import os if not os.path.exists(../files/abc):os.mkdir(../files/abc)五. 爬取英雄联盟的英雄名字json方法 json在netwok 中的 fetch/xhr 中找 import requests response requests.get(https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js) result response.json()for x in result[hero]:print(x[name],x[alias]) 找到network网络然后点击Fetch/XHR 一一找到名称列表的文件通过preview预览查看是否我们需要的数据 查看json数据结构并获取数据 六.下载安妮的皮肤 import requests# 1.定义一个函数 #img:是图片链接 def download(img: str, name: str):res requests.get(img)with open(f../skin/{name}.jpg, wb) as f:# 因为是图片所有用contentf.write(res.content)# 2.主程序入口下载图片 #用的还是json 还是network 下 fetch/xhr找 if __name__ __main__:response requests.get(https://game.gtimg.cn/images/lol/act/img/js/hero/1.js)result response.json()for x in result[skins]:name x[name]img_url x[mainImg]if not img_url:img_url x[chromaImg]download(img_url,name)
http://www.w-s-a.com/news/721549/

相关文章:

  • 网站静态前端是什么工作
  • 餐饮门户网站 方案怎么做创业好项目
  • 做百度手机网站推广普通话的宣传标语
  • 记事本可以做网站吗网站服务器是主机吗
  • 手机网站被拦截怎么办怎么解决东营建设信息网网
  • 外贸网站模板免费微信网站开发技术
  • 视频盗版网站怎么做福州网站seo
  • 成都金铭 网站建设做网站包含的技术
  • 长沙的网站建设公司哪家好做网站应选那个主题
  • 公司网站百度搜不到如何自己做一个网站
  • 学生如何建设网站网站开发程序
  • 网站建设公司哪家好 皆来磐石网络网站建设"淘宝网" 在颜色选取和搭配方面有哪些值得学习的地方.
  • 网站如何做移动规则适配北京住房与城乡建设部网站
  • 课堂阵地建设网站wordpress运行机制
  • 网站建设的需求方案企业网站建设费用明细
  • 创口贴网站模板京创影视app
  • 团购网站建设目的网站有很多304状态码
  • 运用阿里云怎么做网站外资企业可以在中国境内做网站吗
  • 云南住房和城乡建设局网站西安做官网的公司
  • 企业网站图片上传网站建设和应用的情况
  • 网站不显示内容吗聊城网架公司
  • 南昌网站建设企业网站托管外包怎么做
  • 做非洲外贸的网站网站可以用PS设计吗
  • PHP搭建IDC网站青岛福瀛建设集团网站
  • 安徽网站优化多少钱软件界面设计的基本原则
  • 网站建设动态页面修改删除dnf卖飞机的网站怎么做的
  • 万网是做什么的seo综合
  • 网站关键词分隔符php网站开发平台下载
  • 郑州那家做网站便宜商业计划书免费word版
  • 秦时明月的个人网站怎么做网站开发公司需要招聘哪些人