这篇文章主要介绍“jieba怎么对文本进行分词”,在日常操作中,相信很多人在jieba怎么对文本进行分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”jieba怎么对文本进行分词”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
jieba库是一个强大的中文分词库,对中文进行分词。(pip install jieba)
jieba有三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点:
1、精确模式:把句子最精确地分开,适合做文本分析。
2、全模式:把句子中所有的可以成词的词语都切开, 速度快,但有歧义。
3、搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率,
适合用于搜索引擎的分词
代码如下:
import jieba
words = '数据科学公众号团队致力于分享关于数据科学的编程语言以及算法等知识'
# 精确模式
print("/".join(jieba.lcut(words)))
# 全模式
print("/".join(jieba.lcut(words,cut_all=True)))
# 搜索引擎模式
print("/".join(jieba.lcut_for_search(words, )))
结果如下:
# 精确模式 语文阅读的文本分词
数据/科学/公众/号/团队/致力于/分享/关于/数据/科学/的/编程语言/以及/算法/等/知识
# 全模式 列出所有可以成词的文本
数据/科学/公众/号/团队/致力/致力于/分享/关于/数据/科学/的/编程/编程语言/语言/以及/算法/等/知识
# 搜索引擎模式 加强对长词的切分,提高搜索的召回率
数据/科学/公众/号/团队/致力/致力于/分享/关于/数据/科学/的/编程/语言/编程语言/以及/算法/等/知识
到此,关于“jieba怎么对文本进行分词”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。