当前位置: 首页 > news >正文

东莞企业网站推广技巧房地产开发公司有哪些部门

东莞企业网站推广技巧,房地产开发公司有哪些部门,科技通信网站模板下载,wordpress的标题怎么修改“中国跳水梦之队” ————有关东京奥运会跳水评论分析 导语 第32届夏季奥林匹克运动会于2021年07月23日-2021年08月08日在日本东京举办。 四年一届的奥运会可以说是世界瞩目的盛会#xff0c;奥运健儿们在赛场上的精神风貌不只是代表了他们自身的运动精神#xff0c;更昭…“中国跳水梦之队” ————有关东京奥运会跳水评论分析 导语 第32届夏季奥林匹克运动会于2021年07月23日-2021年08月08日在日本东京举办。 四年一届的奥运会可以说是世界瞩目的盛会奥运健儿们在赛场上的精神风貌不只是代表了他们自身的运动精神更昭示这整个民族的精神风貌。 一、概述 对此次奥运会之旅网友们的讨论也十分激烈单单微博就有超过290亿的讨论度大家都期待中国队能在世界舞台上一展雄姿。 同时中国队也不负众望在此次奥运会中取得了令人瞩目的成绩。 如上图所示截止8月8日奥运会结束中国在奖牌榜上依旧是遥遥领先。 从中国奥运奖牌分布我们可以看出跳水这一项目获得的金牌位于各个项目前列那么对于这项取得优异成绩的比赛网友们又是怎么看的呢于是我们就关于跳水这一项目的讨论的内容和相关人员做了一次数据分析 相信大家前几天一定被这个小女孩刷过屏 没错她就是我们中国年仅14岁的跳水冠军而且我国的“跳水梦之队”也在今年的比赛中收获颇丰 年轻、活力、未来这就是朝气蓬勃的中国跳水运动员 中国队的跳水无论是奖牌数还是金牌数都是独占鳌头的存在在公众中也是引发了强烈的反响。 从奥运官网上爬取下来的奖牌数据简单的进行处理一下运用pandas和matplotlib进行画图 稍后介绍这个这两个工具 matplotlib可以用各种方式清晰地展示数据方便得出结论就拿上面奖牌榜举例 通过读取各国奖牌数据我们可以轻松实现数据可视化它可以用各种方式清晰地展示数据方便得出结论。 静态分析已经不能满足我们的眼球了掌握一定技巧后动态图表更直观 同时也可以将它们分布到世界地图上实现区域和奖牌的一一对应。 下面的数据分析环节我们将着重于对数据可视化的获取这样可以很大程度上帮助我们实现数据分析 我想说每一块金牌并不只是代表一个数字而是运动健儿们无数个日夜努力训练的汗水在赛场上宠辱不惊的冷静发挥这远比数字值得骄傲值得自豪的 二、准备数据 2.1 收集数据 条件 跳水运动于7月25日开始比赛全部8月7日结束。选择评论时应该注意评论的发布时间当在25日之后。尽量选择 “热门” 评论特别是一些权威机构发布的微博下进行数据的取样让数据更具普适性。由于我们进行数据分析的时间在奥运会结束之后还应当考虑的一点是这几天的新闻、微博更多的偏向于奥运会后期特别是8月5日~7日这几天的报道。所以也不应该全部将评论的获取集中在后期的报道上前期也要选取少许评论。 这里主要是通过爬虫技术爬取微博手机端上的用户评论来获取数据 爬取难度 网页端手机端移动端 2.1.1 爬虫简介 开始之前先简单介绍爬虫流程 如果我们把互联网比作一张大的蜘蛛网那一台计算机上的数据便是蜘蛛网上的一个猎物而爬虫程序就是一只小蜘蛛沿着蜘蛛网抓取自己想要的猎物/数据 发起请求 使用http库向目标站点发起请求即发送一个Request Request包含请求头、请求体等 获取响应内容 如果服务器能正常响应则会得到一个Response Response包含htmljson图片视频等 解析内容 解析html数据正则表达式第三方解析库如Beautifulsouppyquery等 解析json数据json模块 解析二进制数据:以b的方式写入文件 保存数据 数据库 一些实用的库和包 请求库requests,selenium request库是根据你提供的网站url获取网页html信息的库很多发布在网络上的信息都可以通过相应的html来获取。selenium库是通过代码模拟加载网页的工具有些网页有相应的反爬虫设置可能会阻碍我们对html的获取这时就要用到selenium库来实现自动获取网页的效果。 request URL: 即统一资源定位符也就是我们说的网址统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示是互联网上标准资源的地址。 互联网上的每个文件都有一个唯一的URL它包含的信息指出文件的位置以及浏览器应该怎么处理它。常用的请求方式GETPOSTpost与get请求最终都会拼接成这种形式k1xxxk2yyyk3zzz -User-agent 中文名用户代理服务器从此处知道客户端的 操作系统类型和版本电脑CPU类型浏览器种类版本浏览器渲染引擎等等。这是爬虫当中最最重要的一个请求头参数所以一定要伪造甚至多个。如果不进行伪造而直接使用各种爬虫框架中自定义的user-agent很容易被封禁。请求头中如果没有user-agent客户端配置 服务端可能将你当做一个非法用户 host cookiescookie用来保存登录信息这里直接上代码 import requests import json import re import time import random# 爬取微博评论写入weibo_comment.txt def get_comment(url, headers, number, params_1, weibo_id):count 0while count number:# 判断是否是第一组第一组不加max_idif count 0:print(是第一组)try:urls url max_id_type0web_data_1 requests.get(urls, headersheaders, paramsparams_1)data_1 web_data_1.json()# 获取连接下一页评论的max_idmax_id data_1[data][max_id]comments_list data_1[data][data]for commment_item in comments_list:user commment_item[user][screen_name]gender commment_item[user][gender]comment commment_item[text]# 删除表情符号label_filter re.compile(r/?\w[^]*, re.S)comment re.sub(label_filter, , comment)with open(rweibo_comment.txt, a, encodingutf-8) as f:f.write(f{user}\t{gender}\t{comment}\n)count 1print(已获取 str(count) 条评论。)except Exception as e:print(str(count) 遇到异常)continueelse:print(不是第一组)try:urls url max_idstr(max_id) max_id_type0params_2 ((id, str(weibo_id)),(mid, str(weibo_id)),(max_id, str(max_id)),(max_id_type, 0),)web_data_2 requests.get(urls, headersheaders, paramsparams_2)data_2 web_data_2.json()# 获取连接下一页评论的max_idmax_id data_2[data][max_id]comments_list data_2[data][data]for commment_item in comments_list:user commment_item[user][screen_name]gender commment_item[user][gender]comment commment_item[text]# 删除表情符号label_filter re.compile(r/?\w[^]*, re.S)comment re.sub(label_filter, , comment)with open(rweibo_comment.txt, a, encodingutf-8) as f:f.write(f{user}\t{gender}\t{comment}\n)count 1print(已获取 str(count) 条评论。)except Exception as e:print(str(count) 遇到异常)continuet random.randint(2, 6)time.sleep(t) # 随机停顿时间if __name__ __main__:weibo_id # 这里的信息要添加你登录后的cookie以及所要爬取用户的idheaders {authority: m.weibo.cn,method: GET,path:/comments/hotflow?id str(weibo_id) mid str(weibo_id) max_id_type0,scheme:https,accept:application/json,text/plain,*/*,accept - encoding: gzip, deflate, br,accept - language: zh - CN, zh;q 0.9,cookie:登录后的cookie,mweibo - pwa:1,referer: https://m.weibo.cn/detail/ str(weibo_id),user - agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Mobile Safari/537.36,x - requested -with: XMLHttpRequest,x - xsrf - token: becd86,}# 后面的数据如有不同也请适时更改。着重强调上述‘:’后的内容里字符串开头不能有空格referer中也无空格url https://m.weibo.cn/comments/hotflow?id str(weibo_id) mid str(weibo_id) params_1 ((id, str(weibo_id)),(mid, str(weibo_id)),(max_id_type, 0),)number 200 # 爬取评论量由于手机版一页是19条故可能会多爬取get_comment(url, headers, number, params_1, weibo_id) pandas pandas 是基于numpy 的一种工具该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 pandas读取的到 pandas pandas 是基于numpy 的一种工具该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。 2.2 数据处理 2.2.1 去除图片和表情包 这里可以使用正则表达式替换掉 # 删除表情符号 label_filter re.compile(r/?\w[^]*, re.S) comment re.sub(label_filter, , comment) 正则表达式正则表达式是由一些具有特殊含义的字符组成的字符串多用于查找、替换符合规则的字符串。在表单验证、Url映射等处都会经常用到。 详解和示例 1. 匹配任何任意字符 例如 . 可以匹配 1n*- ,等 2\d\w\s 匹配第一个字符为数字第二个字符为字母或数字、或下划线或汉字第三字符为空格的字符串 例如11 2a , 1_ 3^\d\d\d$ 匹配三个全部都为数字的字符串 例如 123,456,789 还可以用于验证输入的字符串是否符合qq身份证号的验证 例如^\d{8}$ 匹配8位数字的qq号^\d{15}匹配15位均为数字的身份证号2.2.2 去除语气词/空评论 在统计词频的时候可以将一些无用的语气词等删去 import jieba # 引用中文分词库# 为了读取方便我将评论一栏单独保存到一个文件里 txt open(xinxi.txt, r, encodingutf-8).read() # 读取文件注意编码 words jieba.lcut(txt) # 中文分词 excludes {真的, 可以, 恭喜} # 通过不断优化排除结果中的无用词此处只列举几个 for word in excludes: # 排除无用词del counts[word] 三、数据分析和信息挖掘 想要进行使数据分析的结果直观有效的呈现出来对现有数据的可视化分析处理是必不可少的一步 可视化绘图工具 Matplotlib matplotlib作为python最流行的可视化模块之一 功能强大用法简便。对于新手而言其上手难度低仅需要几行代码就可以创建一个发表质量的图片而且同时支持静态和动态图片。对于开发者而言其丰富的子模块提供了对图片中各个细节的精确控制可以实现高度定制的可视化效果。 使用matplotlib库绘图原理很简单就是下面这5步 创建一个图纸 (figure) 在图纸上创建一个或多个绘图(plotting)区域(也叫子图坐标系/轴axes) 在plotting区域上描绘点、线等各种marker 为plotting添加修饰标签(绘图线上的或坐标轴上的) 其他各种DIY pyechart 但下方的数据可视化则主要用到的则是pyecharts为啥呢因为真的更美观 而要想了解pyechart首先就要知道Echart。Echarts 是一个由百度开源的数据可视化javascript库凭借着良好的交互性精巧的图表设计得到了众多开发者的认可。而 Python 是一门富有表达力的语言很适合用于数据处理。当数据分析遇上数据可视化时pyecharts诞生了。简单地说pyecharts就是百度开源的一个强大的javascript数据可视化库Echarts的python接口。 3.1 微博评论分析 3.1.1 词频统计生成词云图 收集到的评论如果逐条去看的话一定会让人眼花缭乱所以我们何不去找一些出现频率较高的关键词看看大家的评论都有哪些异曲同工之妙。 得到 当然如果这还看的不够直观的话我们可以制作词云图。 得到 简析 侧重点中国、来日可期、恭喜中国跳水梦之队、郭晶晶、全红婵加油吧YYDS。。。。。。 分析与结论 中国跳水队在本次东京奥运会总共获得7金5银的优异成绩中国跳水“梦之队”圆满收官 让微博上的网友们更加肯定和认可中国跳水队的实力中国跳水队YYDS金牌拿来吧你 还有就是在本届奥运会上大放异彩的14岁小将全红婵更是得到了网友们的一致追捧同时也让我看到了00后的我们光明的未来都要能为祖国争光为中华民族的伟大复兴梦添砖加瓦。 还有就是曾经的跳水女王郭晶晶在奥运会上担任裁判远渡重洋随代表队一起她是一个辉煌如今也看到了我们的辉煌。 3.1.2 评论用户男女比例分析 在提取数据的同时还有评论用户的性别 我们可以看到女性用户的评论占比很高有76.71%而男性为23.29% 女性用户可能对东京奥运会跳水项目的关注度较高 当然也有可能是女性用户更愿意在微博发表自己的评论为奥运健儿加油打气 3.1.3 评论的情感分析 评论者们高涨的情绪我们也是能通过数据统计获悉哦 为了能够让读者直观的看到我将微博上的评论从消极到积极分成1~10分分数越高评论的内容越积极正向 我们可以清晰的看到微博上的网友们评论分数在10分的不在少数获得高分的评论更是不在少数可见大家都对我们的运动员抱有极大的信心和鼓励 3.1.4 呼声较高的运动员 在东京奥运会开幕仪式中最为瞩目的中国跳水的梦之队一共十名奥运健儿参加比赛。 男子选手谢思埸、王宗源、杨 健、曹 缘、陈艾森 女子选手施廷懋、王 涵、陈芋汐、全红婵、张家齐 而我们想知道讨论他们之中谁的的呼声最热烈就做了这个直方图 我们也是可以看到全红婵、杨 健、曹 缘、陈芋汐的呼声是比较高的。 人们对于14岁“奥运冠军”全红婵的讨论也十分激烈。这就让我想到了最近网络上很火的段子“别的00后拿奥运冠军而你正宅在家刷手机 ”。 当然仅供娱乐中国的00后也正在逐渐成长成为祖国的栋梁之材。 (可能有些用户对运动员的姓名的称呼不完整可能对结果造成细微的影响) 3.2 B站弹幕分析 3.2.1 谁的呼声最高 当代年轻人的“二刺螈”文化繁荣的Bilibili,又称“B站”也有为运动员加油打气的呼声哦! 在这里我们可以看陈芋汐、张家齐的讨论度是比较高的。这也与实事密切相关的。 北京时间7月27日下午东京奥运会跳水比赛决出女子双人10米跳台金牌而在陈艾森/曹缘组合在男子10米双人跳台项目出现失误导致丢冠之后张家齐/陈芋汐组合顶住压力连续5跳发挥稳定以巨大优势击败各个对手夺得冠军捍卫跳水梦之队在这一项目的霸主地位实现6连冠。为中国跳水队再添1枚金牌与此同时这也是中国队本届奥运会第8枚金牌。 3.2.2 B站的情感得分 与微博一样我也为弹幕文化繁荣的B站弹幕顺便做了一下情感分析 与微博的“一枝独秀”不同的是B站中处于中立的6分评论数较多 但相同的是高分分布依旧密集且占据了绝大多数可见大家都是心心念念着我们祖国的奥运英雄们 ✊ 3.3 B站评论分析 根据点赞数讲热门的评论进行排序筛选出热门评论 拿到经过排序后的数据后绘制柱状图 根据爬取到的B站用户的个人信息我们可以统计性别比例 3.4 跳水梦之队的奖牌史 中国跳水队被称为梦之队那么为什么被称为梦之队呢是因为他们的实力超级强大具有绝对的统治力。如图 Tips 中国跳水队首次参加奥运会是在1984年洛杉矶奥运会。1984年至1996年亚特兰大奥运会跳水项目只有4个单人项目分别是男、女单人3米板男、女单人10米台。而2000年悉尼奥运会以后增加了4个双人项目一共8个小项。 在总共的10届奥运会中目前一共产生了64枚奥运金牌中国跳水队一共夺得了其中的47枚占据了其中的73.4%非常的了不起梦之队名称实至名归。 同时我也希望我们的运动员能够在以后的比赛中再创辉煌为国争光 代码 B站弹幕爬虫代码 import requests import json import reif __name__ __main__:# urlhttps://api.bilibili.com/x/v2/dm/web/seg.so?type1oid286557535pid458806830segment_index1url https://api.bilibili.com/x/v2/dm/web/history/seg.so?type1oid286557535date2021-08-%dheaders {cookie: your cookiesUser-Agent: your UA}params {type: 1,oid: 286557535,date: 2021-08-09,}def get_response(url1):response requests.get(urlurl1, headersheaders)response.raise_for_status()response.encoding response.apparent_encodingdata response.textcontents re.findall(.*?([\u4E00-\u9FA5]).*?, data)return contentsdef save_data(content):for i in content:with open(./B站弹幕.txt, modea, encodingutf-8) as f:f.write(i)f.write(\n)# print(i)for i in range(10, 12):urls (url % i)content get_response(urls)# print(content)save_data(content)B站评论代码 from datetime import datetime import pandas as pd import requests import jsonheaders {cookie: cookies“,User-Agent: UA }def get_comment():url https://api.bilibili.com/x/v2/reply/main?next%dtype1oid458806830mode3plat1page 1comment_list []while page 5:urls url % pageparam {callback: jQuery17207626243612334476_1630228955114,jsonp: jsonp,next: page,type: 1,oid: 458806830,mode: 3,plat: 1,_: 1630228982037,}response requests.get(urls, headersheaders)response.raise_for_status()response.encoding response.apparent_encodingdata response.textdata json.loads(data)[data][replies]# print(data)# try:for dic in data:dic_comment {}dic_comment[name] dic[member][uname]# print(dic[member][uname])dic_comment[sex] dic[member][sex]dic_comment[comment] dic[content][message]dic_comment[like] dic[like]# dic_comment[time] datetime.fromtimestamp(data[ctime])dic_comment[rpid] dic[rpid_str]comment_list.append(dic_comment)comment_list.extend(get_detail_comment(dic_comment[rpid]))page 1# except Exception as page_Error:# breakreturn comment_listdef get_detail_comment(rpid):page 1rpid int(rpid)reply_list []while True:url https://api.bilibili.com/x/v2/reply/reply?next%dtype1oid458806830ps10root%durls url % (page, rpid)# print(urls)response requests.get(urlurls, headersheaders)data response.textreply_data json.loads(data)reply_datareply_data[data][replies]# page_countreply_data[data][page][count]# x 复, sub_reply_title_text: 相关回复共0条}},# reply_data reply_data.replace(x, )# print(reply_data)if reply_data is None:breakfor dic in reply_data:dic_reply {}dic_reply[name] dic[member][uname]dic_reply[sex] dic[member][sex]dic_reply[comment] dic[content][message]dic_reply[like] dic[like]# dic_reply[time] datetime.fromtimestamp(reply_data[ctime])reply_list.append(dic_reply)print(dic_reply[comment])page 1if page1:breakreturn reply_listif __name__ __main__:df pd.DataFrame(get_comment())df.to_excel(bilibili.xlsx, sheet_namecomment, indexFalse)print(df.head())print(len(df)) 奥运会数据爬代码 import requests import json import xlwtif __name__ __main__:url https://api.cntv.cn/olympic/getOlyMedals?serviceIdpcoceanitemcodeGEN-------------------------------tjsonpcbomedals1headers {User-Agent: your UA}response requests.get(urlurl,timeout 30)response.raise_for_status()response.encoding response.apparent_encodingdata str.replace(response.text ,omedals1 (, )data str.replace(data, );, )# 解码json转成字典medals json.loads(data)medalList medals[data][medalsList] #一步拿到数据#多步详解# dic medals[data]# medal_list dic[medalsList]# print(medalList)wb xlwt.Workbook(encodingutf-8,style_compression0)sh wb.add_sheet(奥运会奖牌榜,cell_overwrite_okTrue)col(rank,countryname,medal_count,gold, silver,bronze)for i in range(0,6):sh.write(0,i,col[i])for i in range(0,len(medalList)):sh.write(i1,0,medalList[i][rank])sh.write(i1,1,medalList[i][countryname])sh.write(i1,2,medalList[i][count])sh.write(i1,3,medalList[i][gold])sh.write(i1,4,medalList[i][silver])sh.write(i1,5,medalList[i][bronze])sFile save_dirwb.save(sFile)
http://www.w-s-a.com/news/821370/

相关文章:

  • 同江佳木斯网站建设seo学徒培训
  • 淘宝不能发布网站源码做商品怀化网站制作建设
  • 买空间哪个网站好做我的世界背景图的网站
  • 南京哪里做网站wordpress 增加子目录
  • 刚做的网站搜全名查不到网站很难被百度收录
  • 网站建设与管理期末做网站买空间用共享ip
  • 网络合同怎么签有效南京seo公司哪家
  • 厦门建设网官方网站上海网络网站建
  • 网站制作西安郑州网站建设动态
  • 外贸网站免费推广温州做网站技术员
  • 武冈 网站建设做网站能收回吗
  • 网站做前端把网站扒下来以后怎么做
  • 网站模板素材下载手机做任务佣金的网站
  • 机关网站建设考核测评总结做网站sqlserver排序
  • 凉山州建设厅官方网站html5下载教程
  • 内网网站建设方面政策id97网站怎么做的
  • 福州企业建站系统七米网站建设
  • 长春seo建站北京做机床的公司网站
  • 网站维护具体做啥如何开发wap网站
  • 公司网站设计费计入什么科目潍坊公司网站制作
  • 拖拽式网站开发模具钢东莞网站建设
  • 彩票娱乐网站建设模块化网站开发
  • 孝感网站设计用自己的名字设计头像
  • 高明网站建设哪家好深圳vi设计公司全力设计
  • 工程技术cpu游戏优化加速软件
  • 一起做网店网站入驻收费wordpress 自定义评论样式
  • 深圳高端网站建设公司排名app软件开发sh365
  • 泰州网站整站优化惠州做网站多少钱
  • 做博客网站的php代码一建论坛建工教育网
  • 邢台网站制作费用单页营销网站后台