当前位置: 首页 > news >正文

网页设计制作网站html代码大全2018年网站开发语言

网页设计制作网站html代码大全,2018年网站开发语言,网站优化怎样做,外贸网站建站和推广jieba分词和TF-IDF分析 目录 jieba分词和TF-IDF分析1 jieba1.1 简介1.2 终端下载1.3 基本语法 2 TF-IDF分析2.1 什么是语料库2.2 TF2.3 IDF2.4 TF-IDF2.5 函数导入2.6 方法 3 实际测试3.1 问题解析3.2 代码测试 1 jieba 1.1 简介 结巴分词#xff08;Jieba#xff09;是一个…jieba分词和TF-IDF分析 目录 jieba分词和TF-IDF分析1 jieba1.1 简介1.2 终端下载1.3 基本语法 2 TF-IDF分析2.1 什么是语料库2.2 TF2.3 IDF2.4 TF-IDF2.5 函数导入2.6 方法 3 实际测试3.1 问题解析3.2 代码测试 1 jieba 1.1 简介 结巴分词Jieba是一个广泛使用的中文分词Python库它支持多种分词模式并且可以添加自定义词典来提高分词的准确性。 1.2 终端下载 pip install jieba1.3 基本语法 jieba.lcut(sentence切分语句变量)会根据自带的词典进行切分jieba.add_word(‘词句’)添加词句到词典之后会以此切分jieba.load_userdict(‘文件’)文件添加到词典文件需要一词一行 代码展示 import jieba w1 我们在学习python办公自动化 w2 jieba.lcut(sentencew1) print(w2) jieba.add_word(python办公自动化) w3 jieba.lcut(sentencew1) print(w3) w4 我在想你在今天的风里。 w5 jieba.lcut(sentencew4) print(w5) jieba.load_userdict(r.\dic.txt) w4 我在想你在今天的风里。 w6 jieba.lcut(sentencew4) print(w6)运行结果 2 TF-IDF分析 2.1 什么是语料库 (1)语料库中存放的是在语言的实际使用中真实出现过的语言材料; (2)语料库是以电子计算机为载体承载语言知识的基础资源; (3)真实语料需要经过加工(分析和处理)才能成为有用的资源。 2.2 TF 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数)以防止它偏向长的文件。 TF某个词在文章中的出现次数/文章总词数 2.3 IDF 逆向文档频率。IDF的主要思想是:如果包含词条t的文档越少,IDF越大则说明词条具有很好的类别区分能力。 IDFlog(语料库文档总数/(含该词条的文档数1)) 2.4 TF-IDF TF-IDF倾向于过滤掉常见的词语保留重要的词语。TF-IDF越高越重要。 TF -IDF 词频(TF)x 逆文档频率(IDF) 2.5 函数导入 from sklearn.feature_extraction.text import TfidfVectorizer2.6 方法 tfi TfidfVectorizer()引用函数tfi.fit_transform(words)按顺序获取文章词汇的TF-IDFtfi.get_feature_names_out()按顺序切分的文章词汇 3 实际测试 3.1 问题解析 数据如下其中一行为一篇文章词汇顺序非文章顺序而是词汇排列顺序。 3.2 代码测试 代码展示 import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizerf open(task2_1.txt) words f.readlines()tfi TfidfVectorizer() tfi_words tfi.fit_transform(words) print(tfi_words) wordslist tfi.get_feature_names_out() print(wordslist) df pd.DataFrame(tfi_words.T.todense(),indexwordslist) print(df) featurelist df.iloc[:,5].to_list()res {} for i in range(0,len(wordslist)):res[wordslist[i]] featurelist[i] res sorted(res.items(),keylambda x:x[1],reverseTrue) print(res) print(res[2])运行结果
http://www.w-s-a.com/news/952804/

相关文章:

  • 招商加盟网站系统站长工具 seo查询
  • 工商局网站清算组备案怎么做电商培训机构
  • 做好门户网站建设做本地团购网站怎么样
  • wordpress主题和预览不同20条优化防疫措施方案
  • 艾奇视觉网站建设网站推广需要几个人做
  • 2008 iis 添加网站wordpress固定链接标签加上页面
  • 宁波企业网站制作推荐网站优化人员
  • 大型资讯门户网站怎么做排名沈阳建设工程有限公司
  • 开发中英文切换网站如何做江苏网站建设费用
  • 网站论文首页布局技巧桥东网站建设
  • 网站开发项目经理工资北京微信网站
  • 山西山西省建设厅网站微信备份如何转换为wordpress
  • 同城网站开发实用网站模板
  • 郑州做网站哪家公司好国外购买空间的网站有哪些
  • 资讯cms网站有那些餐饮品牌策划设计公司
  • 网站策划选题网站布局优化
  • 网站建设3000字wordpress 微信 主题制作
  • 代做寄生虫网站网站菜单效果
  • 网站备案为什么这么慢目录更新 wordpress
  • 视频在线制作网站Wordpress 外链图片6
  • 网站域名后缀有什么用网站建设的投资预算怎么写
  • 化妆品网站建设网站惠州网站关键字优化
  • 保定网站制作企业下载天眼查企业查询官网
  • 中山企业网站建设公司制作一个景点的网站
  • 连云港集团网站建设株洲建设网站
  • 做运动鞋评价的网站南山做网站联系电话
  • 网站开发公众号开发海南做公司网站
  • 论企业网站建设的必要性微信小程序做一个多少钱
  • 网站制作价格是多少元上海市中小企业服务中心
  • 网站建设管理人员济宁网站建设top