当前位置: 首页 > news >正文

打代码做网站的软件网站对比app还有优势吗

打代码做网站的软件,网站对比app还有优势吗,河北网站建设制作,惠州网站小程序建设点TF#xff08;Term Frequency#xff0c;词频#xff09;和IDF#xff08;Inverse Document Frequency#xff0c;逆文档频率#xff09;是文本处理和信息检索中的两个重要概念#xff0c;常用于计算一个词在文档中的重要性。下面是详细解释#xff1a; TF#xff08…TFTerm Frequency词频和IDFInverse Document Frequency逆文档频率是文本处理和信息检索中的两个重要概念常用于计算一个词在文档中的重要性。下面是详细解释 TF词频 词频表示某个词在一个文档中出现的频率。其计算公式如下 TF ( t , d ) 出现次数 ( t , d ) 文档中词语总数 ( d ) \text{TF}(t, d) \frac{\text{出现次数}(t, d)}{\text{文档中词语总数}(d)} TF(t,d)文档中词语总数(d)出现次数(t,d)​ 其中 ( t ) 表示词语( d ) 表示文档 示例 假设有一个文档内容如下 这 是 一个 示例 示例 文本“示例”出现了2次文档总共有6个词语。词频TF计算 TF ( 示例 , d ) 2 6 0.333 \text{TF}(\text{示例}, d) \frac{2}{6} 0.333 TF(示例,d)62​0.333 IDF逆文档频率 逆文档频率用于衡量一个词在所有文档中的普遍重要性。词语越常见其IDF值越低词语越不常见其IDF值越高。其计算公式如下 IDF ( t ) log ⁡ ( N 1 包含词语的文档数 ( t ) ) \text{IDF}(t) \log \left( \frac{N}{1 \text{包含词语的文档数}(t)} \right) IDF(t)log(1包含词语的文档数(t)N​) 其中 ( N ) 表示文档的总数 包含词语的文档数 ( t ) \text{包含词语的文档数}(t) 包含词语的文档数(t) 表示包含词语 ( t ) 的文档数 示例 假设有以下三个文档 文档1这 是 一个 示例 文本 文档2这是 另一个 示例 文档3这是 一段 示例 文字“示例”在所有3个文档中都出现了。逆文档频率IDF计算 IDF ( 示例 ) log ⁡ ( 3 1 3 ) log ⁡ ( 3 4 ) − 0.124 \text{IDF}(\text{示例}) \log \left( \frac{3}{1 3} \right) \log \left( \frac{3}{4} \right) -0.124 IDF(示例)log(133​)log(43​)−0.124 TF-IDF词频-逆文档频率 TF-IDF结合了TF和IDF两个指标衡量一个词在文档中的重要性。其计算公式如下 TF-IDF ( t , d ) TF ( t , d ) × IDF ( t ) \text{TF-IDF}(t, d) \text{TF}(t, d) \times \text{IDF}(t) TF-IDF(t,d)TF(t,d)×IDF(t) 示例 结合上述TF和IDF的计算假设“示例”在某文档中的词频TF为0.333IDF为-0.124 TF-IDF ( 示例 , d ) 0.333 × − 0.124 − 0.0413 \text{TF-IDF}(\text{示例}, d) 0.333 \times -0.124 -0.0413 TF-IDF(示例,d)0.333×−0.124−0.0413 这种计算方式表明尽管“示例”词在单个文档中较为频繁但在所有文档中都很常见因此其重要性并不高。 实际应用TF-IDF的示例 假设我们有以下三个文档 文档1我 喜欢 学习 机器学习 文档2机器学习 是 很 有趣 的 文档3我 喜欢 编程 和 机器学习第一步计算每个词的词频TF 计算每个文档中每个词的词频 文档1我 喜欢 学习 机器学习 我1/4 0.25 喜欢1/4 0.25 学习1/4 0.25 机器学习1/4 0.25文档2机器学习 是 很 有趣 的 机器学习1/5 0.20 是1/5 0.20 很1/5 0.20 有趣1/5 0.20 的1/5 0.20文档3我 喜欢 编程 和 机器学习 我1/5 0.20 喜欢1/5 0.20 编程1/5 0.20 和1/5 0.20 机器学习1/5 0.20第二步计算逆文档频率IDF 文档1我 喜欢 学习 机器学习 文档2机器学习 是 很 有趣 的 文档3我 喜欢 编程 和 机器学习计算IDF 机器学习log(3 / (1 3)) log(3 / 4) -0.124 我log(3 / (1 2)) log(3 / 3) 0 喜欢log(3 / (1 2)) log(3 / 3) 0 学习log(3 / (1 1)) log(3 / 2) 0.176 是log(3 / (1 1)) log(3 / 2) 0.176 很log(3 / (1 1)) log(3 / 2) 0.176 有趣log(3 / (1 1)) log(3 / 2) 0.176 的log(3 / (1 1)) log(3 / 2) 0.176 编程log(3 / (1 1)) log(3 / 2) 0.176 和log(3 / (1 1)) log(3 / 2) 0.176第三步计算每个词的TF-IDF 将每个词的词频乘以其逆文档频率 文档1我 喜欢 学习 机器学习 我0.25 * 0 0 喜欢0.25 * 0 0 学习0.25 * 0.176 0.044 机器学习0.25 * -0.124 -0.031文档2机器学习 是 很 有趣 的 机器学习0.20 * -0.124 -0.0248 是0.20 * 0.176 0.0352 很0.20 * 0.176 0.0352 有趣0.20 * 0.176 0.0352 的0.20 * 0.176 0.0352文档3我 喜欢 编程 和 机器学习 我0.20 * 0 0 喜欢0.20 * 0 0 编程0.20 * 0.176 0.0352 和0.20 * 0.176 0.0352 机器学习0.20 * -0.124 -0.0248详细分析 通过正确的TF-IDF计算我们可以更准确地确定每个文档中最重要的词语。 文档1分析 “学习”的TF-IDF值最高0.044表明在文档1中“学习”是最重要的词语。“我”和“喜欢”的TF-IDF值为0因为它们在多个文档中都很常见。“机器学习”的TF-IDF值为-0.031表明它虽然在文档中出现但在所有文档中都很常见因此在区分这个文档时并不重要。 文档2分析 “是”、“很”、“有趣”、“的”这四个词的TF-IDF值相同0.0352表明它们在文档2中同等重要。“机器学习”的TF-IDF值为-0.0248同样因为它在所有文档中都很常见。 文档3分析 “编程”和“和”的TF-IDF值最高0.0352表明它们在文档3中最重要。“我”和“喜欢”的TF-IDF值为0因为它们在多个文档中都很常见。“机器学习”的TF-IDF值为-0.0248同样因为它在所有文档中都很常见。 应用TF-IDF结果 这些TF-IDF值帮助我们更准确地理解每个文档的关键内容和主题。例如 在文档1中“学习”是关键词可以推测文档的主题是学习相关内容。在文档2中“是”、“很”、“有趣”、“的”这几个词同等重要可能表示文档在描述机器学习的有趣性。在文档3中“编程”和“和”是关键词可以推测文档的主题涉及编程和机器学习的关系。 通过这些TF-IDF值我们可以更有效地进行文本分类、主题提取和信息检索提高处理文本数据的准确性和效率。
http://www.w-s-a.com/news/776298/

相关文章:

  • 淄博网站制作优化推广asp做学生信息网站
  • 海口招商建设有限公司网站淮安哪有专业做网站的公司
  • 喀什哪有做网站的国内正规seo网络推广
  • 网站设计初步规划公司网页打不开是什么原因
  • 深圳企业网站建设推广服务php做的商城网站设计论文
  • 韩雪冬网站手机网站开发 宽度
  • 奉贤专业做网站新手怎么做企业网站
  • 做网站用哪几个端口 比较好手机号网站源码
  • 手机免费代理ip网站那个旅游网站做攻略最好
  • 西安做网站找哪家公司好苏州专业网站建设开发
  • dedecms如何做网站网站设计实施方案
  • 网站建设合约品牌设计有哪些
  • 织梦企业门户网站宝塔搭建wordpress网站
  • 网站为什么没有排名了11月将现新冠感染高峰
  • 网站开发维护专员岗位职责辽阳企业网站建设
  • 做外国订单有什么网站网站设计论文提纲
  • 商城网站建设报价方案导师让做网站
  • 清远市企业网站seo联系方式动易官方网站
  • 手机上怎么做能打开的网站一级域名和二级域名跨域
  • 网站首页效果图wordpress 在线教育
  • 电商网站开发团队广西桂林商贸旅游技工学校
  • 网站模板文件怎么下载东莞常平镇邮政编码
  • 建网站需要什么wordpress误删的后果
  • wordpress无插件实现网站地图做阿里巴巴网站店铺装修费用
  • 英文互动网站建设南宁住房和城乡建设局网站
  • 威海微网站建设乐清建网站哪家强
  • 网站和app的开发成本saas系统开发教程
  • ps切片工具做网站大气简洁网站
  • 网至普的营销型网站建设wordpress邮箱验证插件下载
  • 找权重高的网站方法张家港早晨网站建设