菏泽科技网站建设,工装装修公司排名,个人网站设计的参考文献,做网站域名费向哪里交1 前言
jieba 是一个非常流行的中文分词库#xff0c;具有高效、准确分词的效果。
它支持3种分词模式#xff1a;
精确模式全模式搜索引擎模式
jieba0.42.1测试环境#xff1a;python3.10.9
2 三种模式
2.1 精确模式
适应场景#xff1a;文本分析。
功能#xff1…1 前言
jieba 是一个非常流行的中文分词库具有高效、准确分词的效果。
它支持3种分词模式
精确模式全模式搜索引擎模式
jieba0.42.1测试环境python3.10.9
2 三种模式
2.1 精确模式
适应场景文本分析。
功能可以将句子精确的分开。
import jiebatext 有勇气的牛排是一个编程领域博主的名字
segments jieba.lcut(text)print(精确模式分词结果, segments)
# [有, 勇气, 的, 牛排, 是, 一个, 编程, 领域, 博主, 的, 名字]2.2 全模式
适应场景提取词语。
功能可以将句子中的成词的词语扫描出来速度非常快但不能解决歧义问题。
import jiebatext 有勇气的牛排是一个编程领域博主的名字segments jieba.lcut(text, cut_allTrue)
print(全模式分词结果, segments)
# [有, 勇气, 的, 牛排, 是, 一个, 编程, 领域, 博, 主, 的, 名字]2.3 搜索引擎模式
适应场景搜索分词。
功能在精确模式的基础上对长分词进行切分提高召回率。
import jiebatext 有勇气的牛排是一个编程领域博主的名字segments jieba.lcut_for_search(text)
print(搜索引擎模式分词结果, segments)3 自定义词典
jieba允许用户自定义词典以提高分词的准确性。
比如专业术语、名字、网络新流行词汇、方言、以及其他不常见短语名字等。
3.1 添加单个词语
import jiebatext 有勇气的牛排是一个编程领域博主的名字jieba.add_word(有勇气的牛排)
segments jieba.lcut_for_search(text)
print(搜索引擎模式分词结果, segments)
# [勇气, 牛排, 有勇气的牛排, 是, 一个, 编程, 领域, 博主, 的, 名字]3.2 添加词典文件
cs_dict.txt
有勇气的牛排
编程领域main.py
import jiebatext 有勇气的牛排是一个编程领域博主的名字jieba.load_userdict(cs_dict.txt)segments jieba.lcut(text)
print(自定义词典文件分词结果, segments)
# [有勇气的牛排, 是, 一个, 编程领域, 博主, 的, 名字]4 词性标注
jieba 的词性标注POS tagging功能使用了标注词性Part-of-Speech tags来表示每个词的词性。
4.1 词性对照表
原文地址https://www.couragesteak.com/article/454
a 形容词 ad 副形词
ag 形容词性语素 an 名形词
b 区别词 c 连词
d 副词 dg 副语素
e 叹词 f 方位词
g 语素 h 前缀
i 成语 j 简称略语
k 后缀 l 习用语
m 数词 mg 数语素
mq 数量词 n 名词
ng 名语素 nr 人名
ns 地名 nt 机构团体
nz 其他专名 o 拟声词
p 介词 q 量词
r 代词 rg 代词性语素
s 处所词 t 时间词
tg 时间词性语素 u 助词
vg 动语素 v 动词
vd 副动词 vn 名动词
w 标点符号 x 非语素字
y 语气词 z 状态词 4.2 测试案例
import jieba.posseg as psegtext 有勇气的牛排是一个编程领域博主的名字words pseg.cut(text)
for word, flag in words:print(f{word} - {flag})5 关键词提取
from jieba import analyse
text 有勇气的牛排是一个编程领域博主的名字# 取前5个关键词
keywords analyse.extract_tags(text, topK5)
print(关键词提取结果, keywords)6 词频统计
import jieba
from collections import Counter
text 有勇气的牛排是一个编程领域博主的名字# 取前5个关键词
segments jieba.lcut(text)
word_counts Counter(segments)
print(词频统计结果, word_counts)