当前位置: 首页 > news >正文

百度推广需要自己有网站吗中企动力z邮箱

百度推广需要自己有网站吗,中企动力z邮箱,福建设计网站,我的个人博客网站文章目录 1、Jieba库1.1 主要函数1.2 词性标注1.3 关键词提取 2、WordCloud库2.1 常见参数2.2 词云绘制 文本分析是指对文本的表示及其特征的提取#xff0c;它把从文本中提取出来的特征词进行量化来表示文本信息#xff0c;经常被应用到文本挖掘以及信息检索的过程当中。 1、… 文章目录 1、Jieba库1.1 主要函数1.2 词性标注1.3 关键词提取 2、WordCloud库2.1 常见参数2.2 词云绘制 文本分析是指对文本的表示及其特征的提取它把从文本中提取出来的特征词进行量化来表示文本信息经常被应用到文本挖掘以及信息检索的过程当中。 1、Jieba库 在自然语言处理过程中为了能更好地处理句子往往需要把句子拆分成一个一个的词语这样能更好地分析句子的特性这个过程就称为分词。由于中文句子不像英文那样天然自带分属并且存在各种各样的词组从而使中文分词具有一定的难度。Jieba 是一个Python 语言实现的中文分词组件在中文分词界非常出名支持简体、繁体中文高级用户还可以加入自定义词典以提高分词的准确率其应用范围较广不仅能分词还提供关键词提取和词性标注等功能。 Jieba库的调用需要使用自动安装命令 pip install jieba进行安装之后使用代码import jieba 引入即可。 1.1 主要函数 函数名作用jieba.cut(s)精确模式返回一个可迭代的数据类型jieba.cut(s.cut_allTrue)全模式输出文本s中的所有可能单词jieba.cut_for_search(s)搜索引擎模式适合搜索引擎建立索引的分词结果jieba.lcut(s)精确模式返回一个列表类型jieba.lcut(s,cut_allTrue)全模式返回一个列表类型jieba.lcut_for_search(s)搜索引擎模式返回一个列表类型jieba.add_word(w)向分词词典中增加新词w 精确分词实例 import jieba s 我喜欢在图书馆学习 for x in jieba.cut(s): #jieba.cut返回一个可迭代类型print(x,end ) jieba.lcut(s)全模式分词实例 import jieba s 我喜欢在图书馆学习 for x in jieba.cut(s,cut_allTrue): print(x,end ) jieba.lcut(s,cut_allTrue)搜索引擎模式分词实例 import jieba s 我喜欢在武汉市图书馆学习 jieba.lcut(s) #精确模式 jieba.lcut(s,cut_allTrue) #全模式 jieba.lcut_for_search(s) #在搜索引擎分词模式在精确分词的模式下对长词再次分割1.2 词性标注 词性是词汇基本的语法范畴通常也称为词类主要用来描述一个词在上下文中的作用。例如人物、地名、事物等是名词表示动作的词是动词等。词性标注的过程就是确定一个句子中出现的每个词分别属于名词、动词还是形容词等它是语法分析、信息抽取等应用领域重要的信息处理基础性工作。 不同的语言有不同的词性标注集为了方便指明词的词性需要给每个词性编码常用词性编码如下 词性编码词性词性编码词性n名词m数词v动词o拟声词a形容词y语气词p介词z状态词c连词nr人名d副词ns地名ul助词t时间q量词w标点符号r代词x未知符号 中文分词及词性的标注可以使用jieba.posseg模块其中的cut()方法能够同时完成分词和词性标注两个功能它返回一个数据序列其中包含word和flag两个序列word是分词得到的词语flag是对各个词的词性标注。 词性标注实例 import jieba.posseg as psg text 我喜欢在武汉市图书馆学习 seg psg.cut(text) #词性标注 for e in seg:print(e,end )1.3 关键词提取 关键词抽取就是从文本里面把与这篇文档意义最相关的一些词抽取出来。关键词在文本聚类、分类、自动摘要等领域中有着重要的作用。例如在聚类时将关键词相似的几篇文档看成一个团簇可以大大提高聚类算法的收敛速度从某天所有的新闻中提取出这些新闻的关键词就可以大致了解那天发生了什么事情将某段时问内几个人的微博拼成一篇长文本然后抽取关键词就可以知道他们主要在讨论什么话题。因此关键词是最能够反应文本主题或者意思的词语。 可以利用jieba分词系统中的TF-IDF接口抽取关键词实例如下 from jieba import analyse# 原始文本 text 关键词抽取就是从文本里面把与这篇文档意义最相关的一些词抽取出来。关键词在文本聚类、分类、自动摘要等领域中有着重要的作用。例如在聚类时将关键词相似的几篇文档看成一个团簇可以大大提高聚类算法的收敛速度从某天所有的新闻中提取出这些新闻的关键词就可以大致了解那天发生了什么事情将某段时问内几个人的微博拼成一篇长文本然后抽取关键词就可以知道他们主要在讨论什么话题。# 基于TF-IDF算法进行关键词抽取 # topK表示最大抽取个数默认为20个 # withWeight表示是否返回关键词权重值默认值为 False # 还有一个参数allowPOS默认为(ns,n,vn,v)即仅提取地名、名词、动名词、动词 keywords analyse.extract_tags(text, topK 10, withWeight True) print (keywords by tfidf:) # 输出抽取出的关键词 for keyword in keywords:print ({:5} weight:{:4.2f}.format(keyword[0], keyword[1]))2、WordCloud库 词云WordCloud是对文本中出现频率较高的关键词数据给予视觉差异化的展现方式。词云图突出展示高频高质的信息也能过滤大部分低频的文本。利用词云可以通过可视化形式凸显数据所体现的主旨快速显示数据中各种文本信息的频率。 2.1 常见参数 Python中的词云WordCloud库中存在一个WordCloud()函数可以利用该函数进行词云对象的构造该函数中的主要参数如下所示 属性数据类型说明font_pathstring字体文件所在的路径widthint画布宽度默认为400pxheightint画布高度默认为400pxmin_font_sizeint显示的最小字体大小默认为4max_font_sizeint显示的最大字体大小默认为Nonemax_wordsnumber显示的词的最大个数默认为200relative_scalingfloat词频和字体大小的关联性默认为5color_funccallable生成新颜色的函数默认为空prefer_horizontalfloat词语水平方向排版出现的频率默认为0.9maskndarray默认为None使用二维遮罩绘制词云。如果mask非空将忽略画布的宽度和高度遮罩形状为maskscalefloat放大画布的比例默认为11倍stopwords字符串停用词需要屏蔽的词默认为空。如果为空则使用内置的STOPWORDSbackground_color字符串背景颜色默认为‘black’ 2.2 词云绘制 例如将26个大写英文字母作为字典的键针对每个键随机生成1-100之间的正整数作为基于此字典生成词云 import wordcloud import random import string # 导入string库 # string.ascii_uppercase可以获取所有的大写字母 lstChar [x for x in string.ascii_uppercase] # 使用randint获取26个随机整数 lstfreq [random.randint(1,100) for i in range(26)] # 使用字典生成式产生形式如{A: 80, B: 11, C: 38……}的字典 freq {x[0]:x[1] for x in zip(lstChar,lstfreq)} print(freq) wcloud wordcloud.WordCloud(background_color white,width1000,max_words 50,height 860, margin 1).fit_words(freq)# 利用字典freq生成词云 wcloud.to_file(resultcloud.png) # 将生成的词云图片保存 print(结束)生成的字典如下 生成的词云如下图所示
http://www.w-s-a.com/news/717655/

相关文章:

  • 临海市住房和城乡建设规划局网站高校图书馆网站的建设方案
  • 建立门户网站张店易宝网站建设
  • wordpress中英文站点厦门seo顾问屈兴东
  • 邯郸网站建设项目重庆网站备案系统
  • 网站导航容易做黄冈网站建设报价
  • 美橙互联建站网站被截止徐州网站建站
  • 网站班级文化建设视频深圳企业网页设计公司
  • 钦州网站建设公司做宣传网站买什么云服务器
  • 58同城有做网站wordpress怎么改标题和meta
  • 安通建设有限公司网站东莞地铁app
  • 群晖nas做网站滨州教育平台 网站建设
  • 住房城市乡建设部网站装修平台有哪些
  • 小米网站 用什么做的深圳广告公司前十强
  • 勤哲网站开发视频瑞安 网站建设培训
  • 有个蓝色章鱼做标志的网站高端的网站建设怎么做
  • 建站网址导航hao123html网页设计实验总结
  • 西宁市网站建设价格丽水集团网站建设
  • 长宁怎么做网站优化好本机怎么放自己做的网站
  • 诚信网站备案中心网站字体怎么设置
  • 企业网站建设费是无形资产吗佛山网站建设哪个好点
  • 网站建设就业方向国开行网站毕业申请怎么做
  • 创建一个网站的费用wordpress 4.0 安装
  • 会员登录系统网站建设dw软件是做什么用的
  • 手机网站被做跳转长沙网上购物超市
  • 网站建设中网站需求分析设计网站推荐html代码
  • 容易收录的网站台州汇客网站建设
  • 企业网站源码百度网盘下载网站备案号如何查询密码
  • 个人网站建设课程宣传栏制作效果图
  • 自己做的网站能上传吗网上做彩票网站排名
  • 教育培训网站模板下载自己做商务网站有什么利弊