当前位置: 首页 > news >正文

高校招生网站建设联网站

高校招生网站建设,联网站,源码资源下载站,广州市外贸网站建设企业文章目录 需求爬取星巴克产品以及图片#xff0c;星巴克菜单 python爬虫爬取结果 需求 爬取星巴克产品以及图片#xff0c;星巴克菜单 网页分析#xff1a; 首先#xff0c;需要分析星巴克官方网站的结构#xff0c;了解菜单栏的位置、布局以及菜单项的标签或类名等信息… 文章目录 需求爬取星巴克产品以及图片星巴克菜单 python爬虫爬取结果 需求 爬取星巴克产品以及图片星巴克菜单 网页分析 首先需要分析星巴克官方网站的结构了解菜单栏的位置、布局以及菜单项的标签或类名等信息。发送 HTTP 请求 使用 Python 的 requests 模块发送 HTTP GET 请求获取星巴克网页的 HTML 内容。解析 HTML 使用一个 HTML 解析库如 BeautifulSoup解析网页的 HTML 内容以便从中提取出菜单栏的数据。定位菜单栏元素 使用解析库的选择器功能如 CSS 选择器或 XPath定位菜单栏所在的 HTML 元素。提取菜单数据 从菜单栏元素中提取菜单项的信息可能包括菜单项名称、图片等。数据存储 将提取的菜单数据存储到适合的数据结构中。 python爬虫 获取网页源码这里没有反爬手段不需要添加其他参数 import urllib from bs4 import BeautifulSoup import requestsbase_url https://www.starbucks.com.cn/menu/ response urllib.request.urlopen(base_url) content response.read().decode(utf-8)soup BeautifulSoup(content, lxml)方法一soup的select方法 # 方法一select方法 import os# 文件保存路径 save_path ./practice_071_星巴克/ if not os.path.exists(save_path): os.makedirs(save_path)name_list soup.select(ul[classgrid padded-3 product]) # name_list[0].select(li div)[0][style] for name in name_list:submenu_pic name.select(li div)submenu_name name.select(li strong)for pic_url,name in zip(submenu_pic, submenu_name):suffix pic_url[style].split(()[-1].split())[0]# 文件地址 和 名称picture_url https://www.starbucks.com.cn suffixpicture_name name.get_text() .jpg# 文件不支持名称中含有字符 /, picture_name picture_name.strip().replace(/, or)# 方法1urlretrieve# urllib.request.urlretrieve(urlpicture_url, filenameos.path.join(save_path,picture_name))# 方法2写入文件形式src_response urllib.request.urlopen(picture_url)pic_content src_response.read()with open(os.path.join(save_path,picture_name), wb) as fp:fp.write(pic_content)print({} 完成地址为 {}.format(picture_name, picture_url)) 方法二soup的find\find_all方法 # 方法二find/find_all方法 menu_list soup.find(div, class_wrapper fluid margin page-menu-list).find_all(li)for name in menu_list:suffix name.find(div)[style].split(()[-1].split())[0]# 文件地址 和 名称picture_url https://www.starbucks.com.cn suffixpicture_name name.find(strong).get_text() .jpg# 文件不支持名称中含有字符 /, picture_name picture_name.strip().replace(/, or)urllib.request.urlretrieve(urlpicture_url, filenameos.path.join(save_path,picture_name))print({} 完成地址为 {}.format(picture_name, picture_url))爬取结果
http://www.w-s-a.com/news/847207/

相关文章:

  • seo是对网站进行什么优化可以在哪些网站做翻译兼职
  • 南宁seo网站推广服务网站建设客户分析
  • 网站属于什么公司甜品售卖网站网页设计
  • 如何在宝塔中安装wordpressseo1888网站建设
  • 网站系统cms湖南平台网站建设制作
  • 美团网站怎么做未备案网站加速
  • 通用cms网站wordpress可以商用
  • 阳江网络问政平台 周报济南seo公司案例
  • 重庆聚百思网站开发网络市场调研
  • seo工具共享网站敬请期待的英语
  • 最好看免费观看高清大全中国移动网络优化做什么的
  • 网站开发的步骤医院网站建设细节
  • 阿雷网站建设wordpress lucene
  • seo做多个网站建筑公司企业标语
  • 各大网站收录查询汕尾手机网站设计
  • 东莞网站平台费用58同城推广能免费做网站吗
  • 网站建设的组织机构做博客网站赚钱吗
  • 移动网站建设的前期规划内容南阳网站备案
  • 天津公司网站建设公司哪家好网站建设评估
  • 猪八戒网网站建设wordpress建网 打不开
  • 廊坊网站排名优化报价自学网站建设和seo
  • 摄影网站开发背景vs2012做网站
  • 网站建设空间使用标准沈阳网站建设招标公司
  • 网站流量怎么做的成都山而网站建设公司
  • 天河区网站建设公司爱站网排名
  • 怎样开发设计网站建设博物馆网页设计案例
  • 山西建设厅网站查不了seo搜索引擎优化包邮
  • 临沂网站建设价格太原网站优化公司
  • 网页设计基础课程设计搜索引擎优化英文
  • 网站备案号怎么查楼书设计素材网站