当前位置: 首页 > news >正文

视频网站用什么做的好深圳的小程序开发公司

视频网站用什么做的好,深圳的小程序开发公司,商丘搜索引擎优化,大型外包公司文章目录 自然语言处理Gensim入门#xff1a;建模与模型保存关于gensim基础知识1. 模块导入2. 内部变量定义3. 主函数入口 (if __name__ __main__:)4. 加载语料库映射5. 加载和预处理语料库6. 根据方法参数选择模型训练方式7. 保存模型和变换后的语料8.代码 自然语言处理Gens… 文章目录 自然语言处理Gensim入门建模与模型保存关于gensim基础知识1. 模块导入2. 内部变量定义3. 主函数入口 (if __name__ __main__:)4. 加载语料库映射5. 加载和预处理语料库6. 根据方法参数选择模型训练方式7. 保存模型和变换后的语料8.代码 自然语言处理Gensim入门建模与模型保存 关于gensim基础知识 Gensim是一个专门针对大规模文本数据进行主题建模和相似性检索的Python库。 MmCorpus是gensim用于高效读写大型稀疏矩阵的一种格式适用于大数据集。 TF-IDF是一种常见的文本表示方法通过对词频进行加权以突出重要性较高的词语。 LSI、LDA和RP都是降维或主题提取方法常用于信息检索、文本分类和聚类任务。 这段代码是使用gensim库生成主题模型的一个脚本它根据用户提供的语言和方法参数来训练文本数据集并将训练好的模型保存为文件。以下是核心代码逻辑的分析与解释 1. 模块导入 导入了logging模块用于记录程序运行日志。导入sys模块以获取命令行参数和程序名。导入os.path模块处理文件路径相关操作。从gensim.corpora导入dmlcorpus一个用于加载特定格式语料库的模块和MmCorpus存储稀疏矩阵表示的文档-词项矩阵的类。从gensim.models导入四个模型lsimodel、ldamodel、tfidfmodel、rpmodel分别对应潜在语义索引LSI、潜在狄利克雷分配LDA、TF-IDF转换模型以及随机投影RP。 2. 内部变量定义 DIM_RP, DIM_LSI, DIM_LDA 分别指定了RP、LSI和LDA模型的维度大小。 3. 主函数入口 (if __name__ __main__:) 配置日志输出格式并设置日志级别为INFO。检查输入参数数量是否满足要求至少包含语言和方法两个参数否则打印帮助信息并退出程序。获取指定的语言和方法参数。 4. 加载语料库映射 根据传入的语言参数创建DmlConfig对象该对象包含了语料库的相关配置信息如存放结果的目录等。加载词汇表字典即wordids.txt文件将其转换成id2word字典结构以便在后续模型构建中将词语ID映射回实际词语。 5. 加载和预处理语料库 使用MmCorpus加载二进制bow.mm文件该文件存储了文档-词项矩阵每个文档是一个稀疏向量表示。 6. 根据方法参数选择模型训练方式 如果方法为’tfidf’则训练并保存TF-IDF模型该模型对原始词频进行加权增加了逆文档频率因子。若方法为’lda’则训练LDA模型这是一个基于概率统计的主题模型通过文档-主题分布和主题-词语分布抽取主题结构。若方法为’lsi’首先用TF-IDF模型转换语料然后在此基础上训练LSI模型它是一种线性代数方法用于发现文本中的潜在主题空间。若方法为’rp’同样先转为TF-IDF表示然后训练RP模型利用随机投影技术降低数据维数。对于未知的方法抛出ValueError异常。 7. 保存模型和变换后的语料 训练完相应模型后将其保存到指定的文件中例如model_lda.pkl或model_lsi.pkl。将原始语料经过所训练模型变换后得到的新语料即主题表示形式保存为一个新的MM格式文件文件名反映所使用的主题模型方法。 8.代码 #!/usr/bin/env python # # Copyright (C) 2010 Radim Rehurek radimrehurekseznam.cz # Licensed under the GNU LGPL v2.1 - https://www.gnu.org/licenses/old-licenses/lgpl-2.1.en.html USAGE: %(program)s LANGUAGE METHODGenerate topic models for the specified subcorpus. METHOD is currently one \ of tfidf, lsi, lda, rp.Example: ./gensim_genmodel.py any lsi import logging import sys import os.pathfrom gensim.corpora import dmlcorpus, MmCorpus from gensim.models import lsimodel, ldamodel, tfidfmodel, rpmodelimport gensim_build# internal method parameters DIM_RP 300 # dimensionality for random projections DIM_LSI 200 # for lantent semantic indexing DIM_LDA 100 # for latent dirichlet allocationif __name__ __main__:logging.basicConfig(format%(asctime)s : %(levelname)s : %(message)s)logging.root.setLevel(levellogging.INFO)logging.info(running %s, .join(sys.argv))program os.path.basename(sys.argv[0])# check and process input argumentsif len(sys.argv) 3:print(globals()[__doc__] % locals())sys.exit(1)language sys.argv[1]method sys.argv[2].strip().lower()logging.info(loading corpus mappings)config dmlcorpus.DmlConfig(%s_%s % (gensim_build.PREFIX, language),resultDirgensim_build.RESULT_DIR, acceptLangs[language])logging.info(loading word id mapping from %s, config.resultFile(wordids.txt))id2word dmlcorpus.DmlCorpus.loadDictionary(config.resultFile(wordids.txt))logging.info(loaded %i word ids, len(id2word))corpus MmCorpus(config.resultFile(bow.mm))if method tfidf:model tfidfmodel.TfidfModel(corpus, id2wordid2word, normalizeTrue)model.save(config.resultFile(model_tfidf.pkl))elif method lda:model ldamodel.LdaModel(corpus, id2wordid2word, num_topicsDIM_LDA)model.save(config.resultFile(model_lda.pkl))elif method lsi:# first, transform word counts to tf-idf weightstfidf tfidfmodel.TfidfModel(corpus, id2wordid2word, normalizeTrue)# then find the transformation from tf-idf to latent spacemodel lsimodel.LsiModel(tfidf[corpus], id2wordid2word, num_topicsDIM_LSI)model.save(config.resultFile(model_lsi.pkl))elif method rp:# first, transform word counts to tf-idf weightstfidf tfidfmodel.TfidfModel(corpus, id2wordid2word, normalizeTrue)# then find the transformation from tf-idf to latent spacemodel rpmodel.RpModel(tfidf[corpus], id2wordid2word, num_topicsDIM_RP)model.save(config.resultFile(model_rp.pkl))else:raise ValueError(unknown topic extraction method: %s % repr(method))MmCorpus.saveCorpus(config.resultFile(%s.mm % method), model[corpus])logging.info(finished running %s, program)
http://www.w-s-a.com/news/491393/

相关文章:

  • 南京网站定制开发商城网站免费模板
  • 青海学会网站建设公司照片组合拼图
  • 中国建设银行福清分行网站爱站网权重查询
  • 外贸通网站建设网站建设7个主要流程图
  • 元气森林网络营销方式医疗网站优化怎么做
  • 手机网站制作报价表做网站公司做网站公司
  • 湖州网站设计吉林网站建设哪家好
  • 做存储各种环境信息的网站使用tag的网站
  • 阿里云用ip做网站网站开发员属于
  • 外链网盘下载南宁seo推广优化
  • 网站的推广方案有哪些此网站可能有
  • wordpress更改链接后网站打不开一键生成个人网站
  • 网站建设后台有哪些东西前端开发培训一般多少钱
  • 高端建设网站公司网站开发 源码
  • 企业网站的劣势园林景观设计公司简介范文
  • 网站建设程序招聘东营建设信息网登录
  • o2o是什么意思通俗讲seo与网站优化 pdf
  • 外贸网站外包一般建设一个网站多少钱
  • 抄袭别人网站的前端代码合法吗网络促销策略
  • 用wordpress制作网站做资源网站
  • wordpress 发布网站南宁网站建设网站
  • 职业生涯规划大赛心得贵阳哪家网站做优化排名最好
  • wordpress 图片懒加载北京网站优化和推广
  • 深圳网站建设工作一个dede管理两个网站
  • 被禁止访问网站怎么办中国建筑网官网查询系统
  • 网站管理运营建设网贷网站
  • 深圳市龙岗区住房和建设局网站怎么给网站做404界面
  • 设计类网站网站系统 建设和软件岗位职责
  • 网站后台打开慢站长之家网址ip查询
  • 图书馆网站设计方案家具设计作品