这期内容当中小编将会给大家带来有关Python中怎么实现文本分析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
任务(Task)
人为判断同义词很简单,但用程序来判断就不简单了。小爱想到了两种方式:制作一个同义词库;计算所有词语的相似度,将相似度高于阈值的词语作为同义词。
同义词库。在网上百度一番,只发现了一个哈工大的同义词库,满心欢喜地点进去一看,发现页面已经不存在了,真是欲哭无泪!小爱心想,要不自己制作一个同义词库?再仔细一思考其中工作量,算了,还是打消念头吧,这种方式行不通。
相似度计算。小爱查询到Python中的synonyms库提供了计算两个词语相似度的方法,结果还较为靠谱,于是就准备采用此种方式了。
行动(Action)
在找了一篇几百字的文章进行测试之后,小爱发现这种方式行得通。于是就正式开始运用于公司的文本数据了。这时,新的问题又出现了。
公司的客户反馈数据有数十上百万条,分词后的词语集合在去除停用词之后也有几万个,小爱的代码在计算相似度的时候卡住了。这个时候小爱才醒悟过来:样本数据分词的词语量少,计算量自然少,但随着词语数量的增加,计算量也是呈指数增长的。
上述就是小编为大家分享的Python中怎么实现文本分析了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。