本篇内容主要讲解“TF-IDF模型的概念是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“TF-IDF模型的概念是什么”吧!
1. TF-IDF的概念与算法
TF-IDF的方法适用于用文本挖掘中,常用于商品的属性提取,该方法采用一种加权技术,统计该统计术语对文档重要程度,通过统计该统计术语对文档重要程度的反应,表示商品属性的重要程度。
每个特征词对于每个类别有不同的区分能力。通过特征选择来体现特征词的重要程度。它所属的类是单词集中的类,具有该类的特征。特征词必须均匀地分布在每一个类别文档中,如果随机地分布在某一个类别文档中,可能会出现该特征词仅出现在某个文档中,造成属性提取不准确。
常用信息增益函数IG和卡方值CHI对于评估函数进行特征选择,用卡方值CHI来衡量特征词的重要性,然而,卡方值CHI不能将特征词的重要性全部反映,所以,需要对卡方值CHI进行对数字化处理,通过数字化的处理,提高了特征选取的效率,以此,避免造成权重失衡。
2. TF-IDF提取商品属性
计算出小米10手机评论的TF-IDF值,并且提取前十个商品属性TF-IDF值最大的,从而提取小米10手机商品的关键属性,并且做小米10手机TF-IDF值的柱形图,从直观上提取商品属性,计算结果如下下表所示:
图1 小米10手机最优商品属性
到此,相信大家对“TF-IDF模型的概念是什么”有了更深的了解,不妨来实际操作一番吧!这里是亿速云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。