上班族怎样提升学历,哈尔滨seo优化分析,seo报告,网站首页图片怎么做前言
《保你平安》今天上映诶#xff0c;有朋友看过吗#xff0c;咋样啊
这是我最近比较想看的电影了#xff0c;不过不知道这影评怎么样#xff0c;上周末的点映应该是有蛮多人看的吧#xff0c;可以采集采集评论看过的朋友发出来的评论#xff0c;分析分析
这周刚好…前言
《保你平安》今天上映诶有朋友看过吗咋样啊
这是我最近比较想看的电影了不过不知道这影评怎么样上周末的点映应该是有蛮多人看的吧可以采集采集评论看过的朋友发出来的评论分析分析
这周刚好双休正正好就可以去看看 okok话不多说咱就开始吧
开发环境
Python 3.8Pycharm
代码实现
基本思路
数据来源分析:
明确需求:
采集的网站是什么?采集的数据是什么? 评论相关数据
抓包分析相关数据来源 通过浏览器自带开发者工具进行抓包分析 重点
打开开发者工具: F12 或者 鼠标右键点击检查选择network刷新网页: 让本网页的数据内容重新加载一遍关键字搜索: 通过关键字要的数据, 搜索查询相对应的数据包
利用获取的数据进行可视化分析
【完整源码文末名片获取】
发送请求
# 请求链接
690643772 ### 源码领取
url fhttps://****/subject/35457272/comments?start20limit20statusPsortnew_score
# 伪装模拟
headers {# User-Agent 用户代理, 表示浏览器基本身份标识User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36
}
# 发送请求
response requests.get(urlurl, headersheaders)
# Response [200]
print(response)解析数据
# 把获取下来html字符串数据 response.text, 转成可解析对象 Selector xpathNone datahtml langzh-CN classua-windows ...
selector parsel.Selector(response.text) # --- 你现金是美元, 没办法在中国使用 先去银行兑换RMB
# 第一次提取, 所有div标签
divs selector.css(div.comment-item)
# for循环遍历, 把列表里面元素一个一个提取出来
for div in divs:name div.css(.comment-info a::text).get() # 昵称rating div.css(.rating::attr(title)).get() # 推荐date div.css(.comment-time::attr(title)).get() # 时间area div.css(.comment-location::text).get() # 地区votes div.css(.votes::text).get() # 有用short div.css(.short::text).get().replace(\n, ) # 评论# 数据存字典里面dit {昵称: name,推荐: rating,时间: date,地区: area,有用: votes,评论: short,690643772 ### 源码领取}写入数据
f open(保你平安.csv, modea, encodingutf-8-sig, newline)
csv_writer csv.DictWriter(f, fieldnames[昵称,推荐,时间,地区,有用,评论,
])
csv_writer.writeheader()可视化展示
读取相关数据
df pd.read_csv(保你平安.csv)
df.head()推荐分布
import pyecharts.options as opts
from pyecharts.charts import Piedata_pair [list(z) for z in zip(evaluate_type, evaluate_num)]
data_pair.sort(keylambda x: x[1])c (Pie(init_optsopts.InitOpts(bg_color#2c343c)).add(series_name豆瓣影评,data_pairdata_pair,rosetyperadius,radius55%,center[50%, 50%],label_optsopts.LabelOpts(is_showFalse, positioncenter),).set_global_opts(title_optsopts.TitleOpts(title推荐分布,pos_leftcenter,pos_top20,title_textstyle_optsopts.TextStyleOpts(color#fff),),legend_optsopts.LegendOpts(is_showFalse),).set_series_opts(tooltip_optsopts.TooltipOpts(triggeritem, formatter{a} br/{b}: {c} ({d}%)),label_optsopts.LabelOpts(colorrgba(255, 255, 255, 0.3)),)690643772 ### 源码领取
)
c.render_notebook()地区分布
import pyecharts.options as opts
from pyecharts.charts import Piedata_pair [list(z) for z in zip(area_type, area_num)]
data_pair.sort(keylambda x: x[1])d (Pie(init_optsopts.InitOpts(bg_color#2c343c)).add(series_name豆瓣影评,data_pairdata_pair,rosetyperadius,radius55%,center[50%, 50%],label_optsopts.LabelOpts(is_showFalse, positioncenter),)690643772 ### 源码领取.set_global_opts(title_optsopts.TitleOpts(title地区分布,pos_leftcenter,pos_top20,title_textstyle_optsopts.TextStyleOpts(color#fff),),legend_optsopts.LegendOpts(is_showFalse),).set_series_opts(tooltip_optsopts.TooltipOpts(triggeritem, formatter{a} br/{b}: {c} ({d}%)),label_optsopts.LabelOpts(colorrgba(255, 255, 255, 0.3)),)
)
d.render_notebook()这样分析下来好像还不错呀应该是值得一看的
这周末可以冲冲咯
最后
今天的文章分享到这里就结束了要准备计划明天出去看完电影该吃些啥了哈哈
祝你们有个愉快的周末~
有什么关于python的不懂的问题可以点击文末名片进行学习交流哦