当前位置: 首页 > news >正文

免费下载ppt模板网站有哪些div布局在线音乐网站设计

免费下载ppt模板网站有哪些,div布局在线音乐网站设计,金华住房与城乡建设部网站,wordpress常见的15个问题由于要抓取的是悦音台mv的排行榜#xff0c;这个排行榜是实时更新的#xff0c;如果要求不停地抓取#xff0c;这将有可能导致悦音台官方采用反爬虫的技术将ip给封掉。所以这里要应用一些反爬虫相关知识。 目标网址#xff1a;http://vchart.yinyuetai.com/vchart/trends?… 由于要抓取的是悦音台mv的排行榜这个排行榜是实时更新的如果要求不停地抓取这将有可能导致悦音台官方采用反爬虫的技术将ip给封掉。所以这里要应用一些反爬虫相关知识。 目标网址http://vchart.yinyuetai.com/vchart/trends?areaML 网站结构 上面红线圈出来的地方都是需要注意的小细节 首先 排行榜分为内地、港台、欧美、韩国、日本五个地区分别将其点开能够观察到url的变化为在最尾部加了一个参数area地区参数 很容易的就能知道参数列表[ML,HT,US,JP,KR] 分别对应着内地、香港、欧美、日本、以及韩国。发现这个规律之后只要通过简单的对url的变化就能多次请求筛选出想要的信息。 其次 可以发现有的mv分数是呈现上升趋势有的mv的分数是成下降趋势这在网页的代码结构稍有不同。 最后可以看到 这里mv的排行榜数据是实时更新的所以爬虫程序要不停的在后台运行才能保证获得的数据是最新的这样就会引起官方人员的注意他们的反爬虫技术有可能就会将爬虫的IP封掉。 完整代码 import requests from bs4 import BeautifulSoup import randomdef get_html(url):try:r requests.get(url,timeout30)r.raise_for_statusr.encoding utf-8return r.textexcept:return errordef get_agent():模拟header的user-agent字段返回一个随机的user-agent字典类型的键值对agents [Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;,Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv,2.0.1) Gecko/20100101 Firefox/4.0.1,Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11,Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)]fakeheader {}fakeheader[User-agent] agents[random.randint(0, len(agents))]return fakeheaderdef get_proxy():简单模拟代理池返回一个字典类型的键值对proxy [http://116.211.143.11:80,http://183.1.86.235:8118,http://183.32.88.244:808,http://121.40.42.35:9999,http://222.94.148.210:808]fakepxs {}fakepxs[http] proxy[random.randint(0, len(proxy))]return fakepxsdef get_content(url):# 先打印一下表头if url[-2:] ML:print(内地排行榜)elif url[-2:] HT:print(香港排行榜)elif url[-2:] US:print(欧美排行榜)elif url[-2:] KR:print(韩国排行榜)else:print(日本排行榜)html get_html(url)soup BeautifulSoup(html,lxml)li_list soup.find_all(li,class_vitem J_li_toggle_date )for li in li_list:content {}try:# 判断分数升降if li.find(h3,class_desc_score):content[分数] li.find(h3,class_desc_score).textelse:content[分数] li.find(h3,class_asc_score).textcontent[排名] li.find(div,class_top_num).textcontent[名字] li.find(a,class_mvname).textcontent[发布时间] li.find(p,class_c9).text[5:]content[歌手] li.find(a,class_special).textexcept:return Noneprint(content)def main():base_url http://vchart.yinyuetai.com/vchart/trends?areasuffix [ML,HT,US,JP,KR]for suff in suffix:url base_url suffprint()get_content(url)if __name__ __main__:main() 输出结果 转载于:https://www.cnblogs.com/Lovebugs/p/7244682.html
http://www.w-s-a.com/news/550294/

相关文章:

  • 安康微网站建设网站域名使用费用
  • 网站建设执招标评分表微信代理网站模板
  • ps做网站分辨率自适应地方网站盈利
  • 免费自助小型网站专业网站建设组织
  • 猎聘网网站建设目标查看别人wordpress主题
  • 免费建设网站入驻网站备案不能更新吗
  • 个人网站制作代码西安建筑类公司
  • 网站备案要营业执照吗网站建设如何记账
  • 新手学做网站难吗外包服务商
  • 公司网站建设的项目工作分解结构wordpress插件后端页面
  • 四川省建设人才网站2018南京专业建站
  • ppt制作网站推荐seo教程百度网盘
  • 网站建设多少钱一平米网上商城网站开发报告
  • 福州网站建设招聘信息哈尔滨中企动力科技股份有限公司
  • 军事新闻最新seo关键词查询排名软件
  • 免费网站建设官网项目建设表态发言
  • 平谷建站推广广告投放平台主要有哪些
  • 网站备案掉了什么原因步骤怎么读
  • 徐州市建设监理协会网站做一个公司官网需要多少钱
  • 网站开发学什么数据库做公司网站注意事项
  • 游戏开发网站建设国际战事最新消息
  • 达州+网站建设网站里自己怎么做推广
  • 看网站建设公司的网站案例熊掌号接入wordpress
  • 黄石下陆区建设局网站wordpress如何拖移小工具
  • 宁波网站建设信息网站开发看书
  • 网站建设优化价格北京优化seo排名
  • 微信网站建设公司费用高端网站建设 炫酷
  • 北京网站假设销售找客户最好的app
  • 做外贸需要关注的网站有什么好处宜州设计公司
  • 公司最近想做个网站怎么办陕西科强建设工程有限公司官方网站