当前位置: 首页 > news >正文

linux服务器怎么做网站电商网站开发方案模板

linux服务器怎么做网站,电商网站开发方案模板,邯郸有学做搭建网站的吗,导购类网站怎么做试验任务概述#xff1a;如下为所给CSDN博客信息表#xff0c;分别汇总了ai, algo, big-data, blockchain, hardware, math, miniprog等7个标签的博客。对CSDN不同领域标签类别的博客内容进行词频统计#xff0c;绘制词频统计图#xff0c;并根据词频统计的结果绘制词云图。… 试验任务概述如下为所给CSDN博客信息表分别汇总了ai, algo, big-data, blockchain, hardware, math, miniprog等7个标签的博客。对CSDN不同领域标签类别的博客内容进行词频统计绘制词频统计图并根据词频统计的结果绘制词云图。 数据表链接https://download.csdn.net/download/m0_52051577/88669409?spm1001.2014.3001.5503  import pandas as pd datapd.read_csv(open(D://实训课//实训课数据csdn.csv),sep,) //导入数据 data //数据预览 如图数据信息包括class、url、title、content四个类标签分别表示博客所属领域类别、对应链接、博文题目和博客内容。下面第一步对这些博文按类别进行分类。 sessiondata.loc[:,class].values set(session)//对数据表的class类别列切分 def classma(i):class1data.loc[data[class]class_list[i],:]print(class1)return class1 //定义切分函数按类别列作为索引返回每一类别对应的数据信息 class_list[ai, algo, big-data, blockchain, hardware, math, miniprog] # for i in range(len(class_list)): # classma(i) aiclassma(0) 分类结果如下图所示  导入停用词表对所分类数据进行停用词处理。 file_pathD:/..csv def getStopword(file_path):stop_list[line[:-1] for line in open(file_path/哈工大停用词表 .txt,r,encodingUTF-8)]return stop_list getStopword(file_path) import jieba def preProcess(all_data,stop_list):xdataall_data[content]result_datalist(xdata)result[]for doc in result_data:docdoc.strip()cut_listjieba.lcut(doc)doc_result[word for word in cut_list if word not in stop_list]result.append(doc_result)return result# getStopword(file_path) result1preProcess(ai,getStopword(file_path)) print(result1) 导入jieba库对去除停用词后的数据进行分词处理并返回分词后的结果。 后续是对分词后的词频进行统计并计算每个分词的tf-idf值这里引入一个tf-idf值的概念 TF词频指的是一个词语在文档中出现的频率它认为在一个文档中频繁出现的词语往往与文档的主题相关性更高。 from gensim.models.tfidfmodel import TfidfModel from gensim import corpora def calculate(resultx):dictionarycorpora.Dictionary(resultx)corpus[dictionary.doc2bow(text) for text in resultx]tf_idf_model TfidfModel(corpus, normalizeFalse)word_tf_tdf list(tf_idf_model[corpus])print(词典:, dictionary.token2id)print(词频:, corpus)print(词的tf-idf值:, word_tf_tdf)return dictionary.token2id,corpus,word_tf_tdf idic,corpus,word_tf_tdfcalculate(result1) 如上图找出每个分词和与之相关联的词对应的下标。 max_pic[] max_fre[] def search(resultx,a):maxmum[]idic,corpus,word_tf_tdfcalculate(resultx)for row in word_tf_tdf[a]:maxmum.append(row[1])for col in word_tf_tdf[a]:if col[1]max(maxmum):print(max(maxmum))max_fre.append(max(maxmum))max_sigcol[0]max_pic.append(max_sig)return max_pic,max_fre for i in range(len(word_tf_tdf)):search(result1,i) print(max_pic) print(max_fre) 对所有相关联的数对进行检索采用特征提取方法对数据排序。并采用最大关联分析找出每一个标签中与属性相关最大的词。 返回的是对应词的下标和对应的tf-idf值。 dictionary_sidic key_words[] for key,value in dictionary_s.items():if value in max_pic:key_words.append(key) key_words.pop(-1) print(key_words) 构造关键词列表根据之前返回的关联度最大词汇对应的下标回到原数据表中定位找出对应的词汇。 # 构造词频字典 dict_zipdict(zip(key_words,max_fre)) print(dict_zip) 最后根据词汇、词频列表绘制词云图。 # 绘制词云 from wordcloud import WordCloud import matplotlib.pyplot as plt def draw(y):my_cloud WordCloud(background_colorwhite, # 设置背景颜色 默认是blackwidth900, height600,max_words100, # 词云显示的最大词语数量font_pathsimhei.ttf, # 设置字体 显示中文max_font_size99, # 设置字体最大值min_font_size16, # 设置子图最小值random_state50 # 设置随机生成状态即多少种配色方案).generate_from_frequencies(y)# 显示生成的词云图片plt.imshow(my_cloud, interpolationbilinear)# 显示设置词云图中无坐标轴plt.axis(off)plt.show() draw(dict_zip) 注以上为AI标签列对应的词云图其他标签列词云图绘制的实现方式同此方法。就不再赘述。
http://www.w-s-a.com/news/279797/

相关文章:

  • 北京高端网站建设价格企业网络托管公司
  • 规范门户网站建设没有网站可以做域名解析吗
  • pc 手机网站源码织梦网站修改教程视频教程
  • 江苏省建设厅副厅长网站济南网络建站模板
  • 工信部网站备案举报做网站竞争大吗
  • 网站建设经费管理注册了域名怎么做网站
  • 哪个着陆页网站福田做网站的公司
  • 网站备案完成后该如何做宁波公司网站建设价格
  • 标识标牌网站怎么做手机网站开发session
  • 怎样建设网站是什么样的广州做和改版网站的公司
  • 世界网站制作帮助做职业规划的网站
  • wordpress 查看站点ppt素材大全免费图片
  • 网站做弹幕广告有什么兼职做it的网站
  • 什么公司做网站出名广州做外贸网站公司
  • 源码网站取名企业网站怎么做百度
  • 织梦网站如何打通百度小程序深圳网站设计灵点网络品牌
  • 做网站网关备案展厅设计风格
  • 唐山网站建设费用网站title优化
  • 网站建设公司做销售好不好海南在线新闻中心
  • title 镇江网站建设wordpress 获取用户密码
  • 品牌型网站建设wordpress+js插件开发教程
  • 免费注册微信网站国家企业年审营业执照官网
  • 建设银行网站 无法访问东莞淘宝运营
  • 做家电网站做网站美工需要会什么软件
  • 深圳营销型定制网站开发1000建设银行网站特点分析
  • 安装网站系统重庆知名网站
  • 巴彦淖尔市 网站建设怀化北京网站建设
  • 内部网站管理办法建立网站后台
  • 自学考试网站建设与管理郑州网站建设开拓者
  • 宁夏制作网站公司慈溪建设集团网站