本篇内容介绍了“Python自然语言包有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
谈论Python中的nlp库,不能不提NLTK。它是最著名的Python NLP库,它在这个领域中取得了令人难以置信的突破。NLTK负责征服许多文本分析的问题,NLTK也颇受教育与研究界的青睐。在自己的网站上,NLTK自称是“一个令人惊叹的自然语言库。”
在我们的经验中,关键词是“玩”。NLTK在50个语料库和词典,9个词干器,以及几十种可选的算法。它是一个学术研究者的主题公园。
然而,这也是NLTK一个主要的缺点。它是沉重的,滑滑的,它有一个陡峭的学习曲线。第二个主要缺点是缓慢而不是生产准备就绪。
textblob坐在巨人肩上,与此类似的另一个库是Pattern。事实上,我们推荐textblob而不是Pattern。
textblob使文本处理提供一个直观的界面,简单化的NLTK。因为它有一个温和的学习曲线,同时拥有惊人的功能,使其成为Python最受欢迎的自然语言库。
例如,假设你想找到一个文本的情感分数。你可以:
from textblob import TextBlob opinion = TextBlob("EliteDataScience.com is dope.")opinion.sentiment
默认情况下,情绪分析仪是从模式库的patternanalyzer。但如果你想使用朴素贝叶斯分析?你可以很容易地转换到一个使用nltk训练好的analyzer。
from textblob import TextBlobfrom textblob.sentiments import NaiveBayesAnalyzer opinion = TextBlob("EliteDataScience.com is dope!", analyzer=NaiveBayesAnalyzer())opinion.sentiment
textblob是一种简单、有趣的库,使得文本分析是一种轻松愉快的事情。我们可以用textblob对付所有NLP的初始原型。
Stanford corenlp库是自然语言分析生产准备阶段的工具套件。它包括词性(POS)标注,实体解析,模式识别,学习等。 “雇佣军”实际上是用Java写而不是Python写的。
许多组织使用corenlp来实现其产品。它几乎能够准确的支持几个主要的语言。
Spacy是一个新生事物,它一经推出就轰动业界。市场定位于运行效率的Python自然语言库。
Spacy是很轻很小的,它的哲学是对每一个问题只提出一种算法(最好的一种)。你不必做出选择,你可以专注于富有成效。
内核是Cpython,所以Spacy运行很快。它的主要缺点是它目前只支持英语。
Spacy是很新的,所以其支持社区不象其他库那么大。然而,它的NLP的方法是如此引人注目,似乎未来可以取代NLTK。
如果你正在建设一个新的应用程序或改造旧的(你只需要英语的支持),那么我们强烈建议使用Spacy。
最后但并非最不重要的,我们有gensim库。gensim不解决所有nlp领域,它只做一部分,并将其做好。你不会把你的海军上将派到陆战场景,同理你也不会用gensim去解决nlp的所有领域和情景。
gensim是一个很好的主题建模和文档相似性分析优化库。在这里列出的Python NLP库中,它是最专业的。
即便如此,这还是一个有价值的工具来添加你的曲目。它的主题建模算法,如潜在的狄利克雷分配(LDA)实现,是所有库中最棒的。此外,它强健、高效、可扩展。
另外,子字段语义分析(或主题建模)是现代自然语言处理中最令人兴奋的领域之一。
“Python自然语言包有哪些”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。