当前位置: 首页 > news >正文

网站快速查找wordpress 悬停 图片 文字

网站快速查找,wordpress 悬停 图片 文字,定制型网站 成功案例,做平台的网站有哪些内容一.TF-IDF算法概述 什么是TF-IDF#xff1f; 词频-逆文档频率#xff08;Term Frequency-Inverse Document Frequency#xff0c;TF-IDF#xff09;是一种常用于文本处理的统计方法#xff0c;可以评估一个单词在一份文档中的重要程度。简单来说就是可以用于文档关键词的提…一.TF-IDF算法概述 什么是TF-IDF 词频-逆文档频率Term Frequency-Inverse Document FrequencyTF-IDF是一种常用于文本处理的统计方法可以评估一个单词在一份文档中的重要程度。简单来说就是可以用于文档关键词的提取。 TF-IDF的基本思想 看到下面这段文本我们应该很容易就能看出“梅西”应该是一个关键词但是我们如何通过算法的形式让计算机也能够辨别呢 五届世界最佳球员莱昂内尔·梅西与阿根廷一起遭遇了更多的心碎——在世界杯1/8淘汰赛上阿根廷3-4输给了法国队。 梅西在俄罗斯只进了一球在世界杯淘汰赛阶段还没有进球。尽管被广泛认为是史上最伟大的球员之一巴塞罗那球星在他的祖国阿根廷却仍然受到许多人的质疑特别是与1986年夺得世界杯的球王马拉多纳相比。曾经的 “球王接班人”如今已年满31岁他可能已经失去了为祖国争夺荣誉的最后机会。 脑海中想到的第一个方法就是对单词出现的次数进行统计也就是词频。如果一个单词在文中出现的频率很高那我们是否可以认为这个单词就是文章的关键词呢 其实不一定词频很高的单词往往更有可能是一些没有意义的停用词stopword例如“我”“的”“了”等等。 与此同时在文章中出现次数很少的单词也不一定是不重要的单词。 因此TF-IDF的基本思想是如果某个单词在一篇文章的出现的频率很高同时在其他文章中很少出现则认为该单词大概率是一个关键词。 词频Term FrequencyTF 词频统计的思路单词w在文档d中出现的频率。 逆文档频率Inverse Document FrequencyIDF 逆文档频率的思路如果一个单词在很多的文档中出现则意味着该单词的的重要性不高反之则意味着该单词的重要性很高。主要是考虑了单词的重要性。 文档数量越大同时单词出现在越少的文档中IDF值就越大则说明单词越重要。 上面IDF公式已经可以使用了但是在一些特殊情况下可能会有一些小问题比如某一个生僻词在我们的语料库中没有出现过那么分母N(w)0IDF就没有意义了。 所以常用的IDF需要做平滑处理使得没有在语料库中出现的单词也可以得到一个合适的IDF值。 二.代码实现 # 0. 引入依赖 import numpy as np import pandas as pd# 1. 定义数据和预处理 docA The cat sat on my bed docB The dog sat on my kneesbowA docA.split( ) bowB docB.split( )# 构建词库 wordSet set(bowA).union(set(bowB)) # print(wordSet)# 2. 进行词数统计 # 用统计字典来保存词出现的次数 wordDictA dict.fromkeys(wordSet, 0) wordDictB dict.fromkeys(wordSet, 0)# 遍历文档统计词数 for word in bowA:wordDictA[word] 1 for word in bowB:wordDictB[word] 1# pd.DataFrame([wordDictA, wordDictB]) # print(wordDictA) # print(wordDictB)# 3. 计算词频TF def computeTF(wordDict, bow):# 用一个字典对象记录tf把所有的词对应在bow文档里的tf都算出来tfDict {}nbowCount len(bow)# 取出key与valuefor word, count in wordDict.items():tfDict[word] count / nbowCountreturn tfDicttfA computeTF(wordDictA, bowA) tfB computeTF(wordDictB, bowB) # print(tfA) # print(tfB)# 4. 计算逆文档频率idf def computeIDF(wordDictList):# 用一个字典对象保存idf结果每个词作为key初始值为0idfDict dict.fromkeys(wordDictList[0], 0)N len(wordDictList)import math# 遍历字典序列中的每一本字典for wordDict in wordDictList:# 遍历字典中的每个词汇统计Nifor word, count in wordDict.items():if count 0:# 先把Ni增加1存入到idfDictidfDict[word] 1# 已经得到所有词汇i对应的Ni现在根据公式把它替换成为idf值。Ni表示文档集中包含了词汇i的文档数for word, Ni in idfDict.items():# 若一个词汇每个文档均出现则NiN则log10(1)0idfDict[word] math.log10((N 1) / (Ni 1))return idfDictidfs computeIDF([wordDictA, wordDictB]) # print(idfs)# 5. 计算TF-IDF def computeTFIDF( tf, idfs ):tfidf {}for word, tfval in tf.items():tfidf[word] tfval * idfs[word]return tfidftfidfA computeTFIDF( tfA, idfs ) tfidfB computeTFIDF( tfB, idfs )# pd.DataFrame( [tfidfA, tfidfB] ) # print(tfidfA) # print(tfidfB)
http://www.w-s-a.com/news/699525/

相关文章:

  • 网站续费 多久想自己做网站该学些什么
  • 可以自己做网站wordpress英文写作插件
  • 国外可以做会员网站的网站怎么查百度竞价关键词价格
  • 新站网站建设亚马逊关键词
  • 电商网站前端架构设计上海市建设工程安全生产协会网站
  • 东莞企业免费模版网站建设一般网站维护要多久
  • 著名建筑设计网站常州制作网站价格
  • 食品营销型网站广东省广州市白云区
  • 如何做网站哪个站推广描述对于营销型网站建设很重要飘红效果更佳
  • 济阳做网站公司99企业邮箱888
  • 国贸做网站的公司能接做网站的活的网站
  • 淮南建设厅网站上杭县建设局网站
  • 东莞做网站公司首选!西安注册公司费用
  • 做网站包括什么卖水果网站模板
  • 扬州网站建设外包wordpress 文章评分
  • 网站建设网站多少钱公司名字大全列表
  • 设计企业网站内容wordpress 投稿者 权限
  • seo网站推广免费价格低的成语
  • 做网站建设销售辛苦吗专题页是什么
  • 做网站的软件名字全拼wordpress可以上传文件吗
  • 建品牌网站公司关于asp_sql网站开发的书籍
  • 建网站公司营销型网站建设wordpress自定义登录页
  • 泉州市住房和城乡建设局网站淘宝店网站怎么做
  • 企业网站建设费未付款怎样挂账长春网站制作专业
  • 深圳找网站建设邹城市建设局网站
  • 长春火车站停运了吗网站开发概要设计
  • 网站开发表格整体页面居中网站域名详解
  • 漕泾网站建设赢展网站建设
  • 医院网站建设的要求毕业了智慧团建密码忘了
  • 网站怎么建设在哪里接单坪山商城网站建设哪家便宜