当前位置: 首页 > news >正文

中英文网站怎么做搭配服装网站源码

中英文网站怎么做,搭配服装网站源码,相对于网站根目录的的绝对路径,咸鱼app引导页面设计模板一、准备过程 首先打开hao123漫画筛选区#xff0c;网址是https://www.hao123.com/manhua/list/?finishaudienceareacateorder1 在这里可以通过审查模式看到第一页的详细信息#xff0c;而目的则是通过爬取漫画筛选页面的每部漫画的人气与题材来分析最近… 一、准备过程 首先打开hao123漫画筛选区网址是https://www.hao123.com/manhua/list/?finishaudienceareacateorder1 在这里可以通过审查模式看到第一页的详细信息而目的则是通过爬取漫画筛选页面的每部漫画的人气与题材来分析最近漫画迷的观漫需求 环境如下   python3.6.2    PyCharm   Windows8.1  第三方库jieba,wordcloudbs4Requestsrewordcloud) 二、代码 1.用requests库和BeautifulSoup库爬取hao123漫画网当前页面的每部漫画的漫画名、地域、题材、人气、链接等将获取漫画详情的代码定义成一个函数  def getCartoonDetail(cartoonUrl): # 将获取hao123漫画详情的代码定义成一个函数 def getCartoonDetail(cartoonUrl): def getCartoonDetail(cartoonUrl):resd requests.get(cartoonUrl)resd.encoding utf-8soupd BeautifulSoup(resd.text, html.parser)cartoons {}# 获取除了标题外的字符串a soupd.select(.title-wrap)[0].select(span)[0].text# 计算字符串的长度num len(a)# 标题cartoons[title] soupd.select(.title-wrap)[0].text[:-num]ul soupd.select(.info-list)[0]# 地域cartoons[territory] ul.select(li)[1].text.lstrip(地域).replace(\xa0, )#漫画题材cartoons[theme] ul.select(li)[-2].text.lstrip(题材).replace(\xa0, )#人气cartoons[moods] ul.select(li)[-1].text.lstrip(人气)writeCartoonDetail(cartoons[theme] cartoons[moods] \n)return cartoons 2.取出一个漫画列表页的全部漫画 包装成函数def getListPage(pageUrl): def getListPage(pageUrl):res requests.get(pageUrl)res.encoding utf-8soup BeautifulSoup(res.text, html.parser)cartoonlist []for cartoon in soup.select(.item-1):# cartoon.select(.title)获取列表里的漫画标题if len(cartoon.select(.title)) 0:a cartoon.select(a)[0].attrs[href]#链接cartoonlist.append(getCartoonDetail(a))return cartoonlist 3.获取总的漫画篇数算出漫画总页数包装成函数def getPageN(): def getPageN():res requests.get(https://www.hao123.com/manhua/list/?finishaudienceareacateorder1)res.encoding utf-8soup BeautifulSoup(res.text, html.parser)n int(soup.select(.gray)[1].text.lstrip(共).rsplit(页)[0])return n 4. 获取全部漫画列表页的全部漫画详情。爬取页面前30页原因是爬取的数据太多搞到电脑蓝屏列表好像出现过溢出 cartoontotal [] pageUrl https://www.hao123.com/manhua/list/?finishaudienceareacateorder1 cartoontotal.extend(getListPage(pageUrl))n getPageN() for i in range(2, 30 1):pageUrl https://www.hao123.com/manhua/list/?finishaudienceareacateorder1pn{}.format(i)cartoontotal.extend(getListPage(pageUrl)) 5.将爬取到所有信息通过pandas根据评分排序然后只爬取title和moods两列的信息并保存至excel表中 df pandas.DataFrame(cartoontotal) # 将爬取到所有信息通过pandas根据人气排序然后只爬取title和moods两列的信息并保存至excel表中 dfsdf.sort_index(bymoods, ascendingFalse) dfsndfs[[title, moods]] dfsn.to_excel(cartoon.xlsx, encodingutf-8) 6.将爬取到的漫画题材通过构造方法writeNewsDetail(content)写入到文本cartoon.txt中 def writeCartoonDetail(content):fopen(cartoon.txt,a,encodingutf-8)f.write(content)f.close()   三、生成词云  通过导入wordcloud的包来生成词云 from PIL import Image,ImageSequence import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud,ImageColorGenerator # image Image.open(./logo.jpg) # graph np.array(image) # 获取上面保存的字典 title_dict changeTitleToDict() graph np.array(title_dict) font rC:\Windows\Fonts\simhei.ttf # backgroud_Image代表自定义显示图片这里我使用默认的 backgroud_Image plt.imread(G:/大三2/大数据/filedocuments/logo1.jpg) wc WordCloud(background_colorwhite,max_words500,font_pathfont, maskbackgroud_Image) # wc WordCloud(background_colorwhite,max_words500,font_pathfont) wc.generate_from_frequencies(title_dict) plt.imshow(wc) plt.axis(off) plt.show() 选择的图片   原图 由于生成的词云是按照背景色来生成的故显示效果为    一个矩形明显不是我想要的效果所以重新抠图如下  效果如下  四、遇到的问题及解决方案   1.在导入wordcloud这个包的时候会遇到很多问题 首先通过使用pip install wordcloud这个方法在全局进行包的下载可是最后会报错误error: Microsoft Visual C 14.0 is required. Get it with “Microsoft Visual C Build Tools”: http://landinghub.visualstudio.com/visual-cpp-build-tools  这需要我们去下载VS2017中的工具包但是网上说文件较大所以放弃。 之后尝试去https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下载whl文件然后安装。 下载对应的python版本进行安装如我的就下载wordcloud-1.4.1-cp36-cp36m-win32.whl,wordcloud-1.4.1-cp36-cp36m-win_amd64 两个文件都放到项目目录中两种文件都尝试安装 通过cd到这个文件的目录中通过pip install wordcloud-1.4.1-cp36-cp36m-win_amd64,进行导入 但是两个尝试后只有win32的能导入64位的不支持所以最后只能将下好的wordcloud放到项目lib中在Pycharm中import wordcloud,最后成功 2.在爬取漫画信息的时候爬取漫画标题的时候会因为soupd.select(.title-wrap)[0].text获取除标题外的其他值如已完结如下图   解决方案如下 # 获取除了标题外的字符串a soupd.select(.title-wrap)[0].select(span)[0].text# 计算字符串的长度num len(a)# 标题cartoons[title] soupd.select(.title-wrap)[0].text[:-num] 五、数据分析与结论 通过对词云的查看可以看出漫画迷对于类型类型为搞笑、爱情、生活、魔幻、治愈、冒险等题材的漫画喜欢而对都市、竞技、悬疑等题材的漫画选择很少这说明观看漫画选择的大多数是有关于有趣与刺激的而对于推理类的漫画选择少这样在出版漫画时可以通过受众程度来出版。 而在这次作业中我了解并实现如何爬取一个网站的有用信息如何对爬取的信息分析并得到结论虽然我对于大数据技术深度的技术并不了解而且基础的知识也需要我不断加深巩固。 六、所有代码 # 大数据大作业 # 爬取hao123漫画网中的漫画人气最多的题材 import requests import re from bs4 import BeautifulSoup import pandas import jieba# 将爬取到的漫画题材通过构造方法writeNewsDetail(content)写入到文本cartoon.txt中 def writeCartoonDetail(content):fopen(cartoon.txt,a,encodingutf-8)f.write(content)f.close()# 将获取hao123漫画详情的代码定义成一个函数 def getCartoonDetail(cartoonUrl): def getCartoonDetail(cartoonUrl):resd requests.get(cartoonUrl)resd.encoding utf-8soupd BeautifulSoup(resd.text, html.parser)# print(cartoonUrl)cartoons {}# 获取除了标题外的字符串a soupd.select(.title-wrap)[0].select(span)[0].text# print(a)# 计算字符串的长度num len(a)# print(num)# 标题cartoons[title] soupd.select(.title-wrap)[0].text[:-num]# print(title)# b soupd.select(.info-list)[0].select(li)[-1].text# print(b)ul soupd.select(.info-list)[0]# print(ul)# 地域cartoons[territory] ul.select(li)[1].text.lstrip(地域).replace(\xa0, )# print(territory)#漫画题材cartoons[theme] ul.select(li)[-2].text.lstrip(题材).replace(\xa0, )# print(theme)#人气cartoons[moods] ul.select(li)[-1].text.lstrip(人气)# print(moods)# b soupd.select(.chapter-page)# print(b)writeCartoonDetail(cartoons[theme] cartoons[moods] \n)return cartoons# 取出一个漫画列表页的全部漫画 包装成函数def getListPage(pageUrl): def getListPage(pageUrl):res requests.get(pageUrl)res.encoding utf-8soup BeautifulSoup(res.text, html.parser)cartoonlist []# c soup.select(.list-page)# c soup.select(.item-1)# print(c)# a c[0].select(a)[0].attrs[href]#链接# print(a)# soup.select(.item-1)获取漫画列表for cartoon in soup.select(.item-1):# cartoon.select(.title)获取列表里的漫画标题if len(cartoon.select(.title)) 0:# print(cartoon.select(.title))a cartoon.select(a)[0].attrs[href]#链接# print(a)cartoonlist.append(getCartoonDetail(a))# print(cartoonlist)return cartoonlist# 获取总的漫画篇数算出漫画总页数包装成函数def getPageN(): def getPageN():res requests.get(https://www.hao123.com/manhua/list/?finishaudienceareacateorder1)res.encoding utf-8soup BeautifulSoup(res.text, html.parser)n int(soup.select(.gray)[1].text.lstrip(共).rsplit(页)[0])return n# 获取全部漫画列表页的全部漫画详情。 cartoontotal [] pageUrl https://www.hao123.com/manhua/list/?finishaudienceareacateorder1 cartoontotal.extend(getListPage(pageUrl)) # print(cartoontotal)n getPageN() # print(n) for i in range(2, 6 1):pageUrl https://www.hao123.com/manhua/list/?finishaudienceareacateorder1pn{}.format(i)cartoontotal.extend(getListPage(pageUrl))# print(cartoontotal) # print(cartoontotal)cartoonsList {} for c in cartoontotal:# print(c)cartoonsList[theme] c[theme]cartoonsList[moods] c[moods] print(cartoonsList)df pandas.DataFrame(cartoontotal) # print(df) # 将爬取到所有信息通过pandas根据人气排序然后只爬取title和moods两列的信息并保存至excel表中 dfsdf.sort_index(bymoods, ascendingFalse) dfsndfs[[title, moods]] # print(dfsn) dfsn.to_excel(cartoon.xlsx, encodingutf-8)# import jieba # f open(cartoon.txt,r,encodingUTF-8) # str1 f.read() # f.close() # str2 list(jieba.cut(str1)) # countdict {} # for i in str2: # countdict[i] str2.count(i) # dictList list(countdict.items()) # dictList.sort(keylambda x: x[1], reverseTrue) # f open(G:/大三2/大数据/filedocuments/jieba.txt, a) # for i in range(30): # f.write(\n dictList[i][0] str(dictList[i][1])) # print(f) # f.close()# 读取保存的内容,并转化为字典同时把结果返回生成词云 def changeTitleToDict():f open(cartoon.txt, r, encodingutf-8)str f.read()stringList list(jieba.cut(str))delWord {, /, , , 【, 】, , , , 、}stringSet set(stringList) - delWordtitle_dict {}for i in stringSet:title_dict[i] stringList.count(i)return title_dict# 生成词云 from PIL import Image,ImageSequence import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud,ImageColorGenerator # image Image.open(./logo.jpg) # graph np.array(image) # 获取上面保存的字典 title_dict changeTitleToDict() graph np.array(title_dict) font rC:\Windows\Fonts\simhei.ttf # backgroud_Image代表自定义显示图片这里我使用默认的 backgroud_Image plt.imread(G:/大三2/大数据/filedocuments/logo.jpg) wc WordCloud(background_colorwhite,max_words500,font_pathfont, maskbackgroud_Image) # wc WordCloud(background_colorwhite,max_words500,font_pathfont) wc.generate_from_frequencies(title_dict) plt.imshow(wc) plt.axis(off) plt.show()   转载于:https://www.cnblogs.com/2647409627qq/p/8933926.html
http://www.w-s-a.com/news/909088/

相关文章:

  • 织梦网站怎么居中视频网站开发与制作
  • 网站上海备案佛山网站seo哪家好
  • 品牌形象网站有哪些珠海市区工商年报在哪个网站做
  • 注册域名不建设网站seo外包服务方案
  • 如何进行外贸网站建设wordpress文章输入密码可见
  • 政务网站建设索引常州做网站信息
  • 南宁做网站找哪家好wordpress 更改首页
  • 一个人在家做网站建设品牌策划流程
  • 小网站广告投放wordpress页面添加js
  • 仿制别人的竞价网站做竞价犯法吗wordpress添加版块
  • wordpress主题 站长互联网站备案表
  • 广州品牌策划公司排行南宁seo网络推广公司
  • 营销型网站图片肯德基网站开发
  • 网站的外链是什么wordpress开启菜单
  • 文字字体是什么网站西安博达网站建设
  • 北京南昌网站建设网站查看空间商
  • 网站建设人员职责分布乐清市网站建设设计
  • 网站建设etw网站建设陕西
  • 网站文章页内链结构不好可以改吗wordpress英文模板下载
  • 北京天通苑 做网站哈尔滨快速网站排名
  • 网站开发负责人是什么职位试剂网站建设
  • 什么是展示型网站wordpress链接视频
  • 佳木斯城乡建设局网站过年做哪个网站能致富
  • 石家庄快速网站搭建设计公司属于什么企业
  • 中小学智慧校园建设平台网站sem竞价推广
  • 想创建一个网站官方网站建设推广
  • 江门网站优化民间it网站建设
  • 科研实验室网站建设wordpress加载模板
  • 用r做简易的网站软件园二期做网站的公司
  • 菏泽网站建设价格长春高档网站建设