当前位置: 首页 > news >正文

苏州做网站找哪家好做网站九州科技

苏州做网站找哪家好,做网站九州科技,wordpress 摘要调用,wordpress汉化包安装theme: orange 要分析一篇文章的高频词和关键词#xff0c;可以使用 Python 中的 nltk 库和 collections 库或者jieba库来实现#xff0c;本篇文章介绍基于两种库分别实现分析内容中的高频词和关键词。 nltk 和 collections 库 首先#xff0c;需要安装 nltk 库和 collectio… theme: orange 要分析一篇文章的高频词和关键词可以使用 Python 中的 nltk 库和 collections 库或者jieba库来实现本篇文章介绍基于两种库分别实现分析内容中的高频词和关键词。 nltk 和 collections 库 首先需要安装 nltk 库和 collections 库。可以使用以下命令来安装 shell pip install nltk pip install collections 接下来需要下载 nltk 库中的 stopwords 和 punkt 数据。可以使用以下代码来下载 python import nltk nltk.download(stopwords) nltk.download(punkt) 下载完成后可以使用以下代码来读取文章并进行分析 python import collections import nltk from nltk.corpus import stopwords from nltk.tokenize import word_tokenize 读取文章 with open(article.txt, r,encodingutf-8) as f: article f.read() 分词 tokens word_tokenize(article) 去除停用词 stopwords set(stopwords.words(english)) filteredtokens [token for token in tokens if token.lower() not in stop_words] 统计词频 wordfreq collections.Counter(filteredtokens) 输出高频词 print(Top 10 frequent words:) for word, freq in wordfreq.mostcommon(10): print(f{word}: {freq}) 提取关键词 keywords nltk.FreqDist(filtered_tokens).keys() 输出关键词 print(Keywords:) for keyword in keywords: print(keyword) 上述代码中首先使用 open() 函数读取文章然后使用 word_tokenize() 函数将文章分词。接着使用 stopwords 数据集去除停用词使用 collections.Counter() 函数统计词频并输出高频词。最后使用 nltk.FreqDist() 函数提取关键词并输出关键词。 需要注意的是上述代码中的 article.txt 文件需要替换为实际的文章文件路径。 结巴(jieba)库实现 python 导入必要的库 import jieba import jieba.analyse from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as plt 读取文章 with open(./data/2.txt, r, encodingutf-8) as f: article f.read() 分词 words jieba.cut(article) 统计词频 word_counts Counter(words) 输出高频词 print(高频词) for word, count in wordcounts.mostcommon(10): print(word, count) 输出关键词 print(关键词) keywords jieba.analyse.extract_tags(article, topK10, withWeightTrue, allowPOS(n, nr, ns)) for keyword, weight in keywords: print(keyword, weight) 生成词云 wordcloud WordCloud(fontpathmsyh.ttc, backgroundcolorwhite, width800, height600).generate(article) plt.imshow(wordcloud, interpolationbilinear) plt.axis(off) plt.show() 导入jieba库首先需要导入jieba库才能使用其中的分词功能。读取文章需要读取要分析的文章可以使用Python内置的open函数打开文件然后使用read方法读取文件内容。分词使用jieba库的cut方法对文章进行分词得到一个生成器对象可以使用for循环遍历生成器对象得到每个词。统计词频使用Python内置的collections库中的Counter类对分词后的词进行统计得到每个词出现的次数。输出高频词根据词频统计结果输出出现频率最高的词即为高频词。输出关键词使用jieba库的analyse模块中的extract_tags方法根据TF-IDF算法计算每个词的权重输出权重最高的词即为关键词。生成词云使用wordcloud库生成词云将文章中的词按照词频生成词云词频越高的词在词云中出现的越大。
http://www.w-s-a.com/news/835983/

相关文章:

  • 智能网站价格河北城乡建设网站
  • 做动画在线观看网站网上花店 网站源代码
  • 做网站项目体会商业信息
  • 深圳的设计网站谷歌浏览器下载手机版官网
  • 苏州网站建设都找全网天下外贸响应式网站设计
  • 揭阳专业做网站网站迁移教材
  • 手机上怎么上传网站吗工程信息网站建设
  • 用手机建网站微信手机网站流程
  • 专注软件优化分享的网站梧州网页设计
  • 长春火车站和高铁站是一个站吗公司名称注册查询系统
  • 便利的集团网站建设网页的依托网站
  • 茶叶网站建设题库制作助手app
  • 网站建设栏目层级北京网站搭建公司电话
  • 网站开发运营经理打开百度竞价页面是网站是什么
  • 国内最专业的设计网站建设现在用什么语言做网站
  • 湖南网站开发 岚鸿象山县建设工程招投标网站
  • 长沙免费网站排名wordpress 教学
  • 专门做app的网站html代码是什么
  • 临沂网站制作建设欧米茄表官网
  • 北京模板网站开发全包网站建设的第三方平台
  • 在凡科做的网站怎么推广网页模板下载 免费 html
  • 有关网站建设的标题仿亿欧网wordpress
  • 网站建设公司销售招聘常用的搜索引擎有哪些?
  • wordpress中.htaccess新上线的网站怎么做优化
  • 家教网站怎么做网站建设品牌推荐
  • 青岛做外贸网站建设茶叶公司网站建设策划书
  • 个人电脑做网站主机三合一网站
  • 用html框架做网站怎么在.Net中做团购网站
  • 怎样建一个自己公司的网站制作网站需要钱吗
  • 联盟网站制作wap网站制作公司