这篇文章主要为大家展示了“python机器学习中特征工程算法的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“python机器学习中特征工程算法的示例分析”这篇文章吧。
机器学习是从数据中,自动分析获得规律(模型),并利用规律对未知数据进行预测。
机器学习的历史数据通常使用csv文件存储。
不用mysql的原因:
1、文件大的话读取速度慢;
2、格式不符合机器学习要求的格式
Kaggle:大数据竞赛平台、80万科学家、真实数据、数据量巨大
Kaggle网址:https://www.kaggle.com/datasets
UCI:360个数据集、覆盖科学生活经济等领域、数据量几十万
UCI数据集网址: http://archive.ics.uci.edu/ml/
scikit-learn:数据量较小、方便学习
scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets
特征值(用以判断目标值所用的条件:比如房子的面积朝向等)+目标值(希望实现的目标:比如房子价格)
有些数据集可以没有目标值。
”将原始数据转换为能更好地代表预测模型的潜在问题的特征“的过程,叫做特征工程,能够提高对未知数据的预测准确性。特征如果不好,很可能即使算法好,结果也不会尽如人意。
pandas可用于数据读取、对数据的基本处理
sklearn有更多对于特征的处理的强大的接口
特征抽取:
特征抽取API:sklearn.feature_extraction
API:sklearn.feature_extraction.DictVectorizer
语法如下:
字典数据抽取:将字典中的类别数据分别进行转换为特征数据。因此,如果输入的是数组形式,并且有类别的这些特征,需要先转换成字典数据,然后进行抽取。
Count
类:sklearn.feature_extraction.text.CountVectorizer
用法:
1.统计所有文章当中所有的词,重复的只看做一次
2.对每篇文章,在词的列表里面,统计每个词出现的次数
3.单个字母不统计
注意:该方法默认不支持中文,每个中文汉字被视为一个英文字母,中间有空格或者逗号就会被分开,同样的,一个汉字不予统计。(中文可使用jieba分词:pip install jieba,使用:jieba.cut("我是一个程序员"))
上面的countvec不能处理中性词比如“明天,中午,因为”等。于是可以使用tfidf方法。
tf
:term frequency词频(和countvec方法一样)
idf
:inverse document frequency逆文档频率 log(总文档数量/该词出现的文档数)
tf * idf 重要性程度
类:sklearn.feature_extraction.text.TfidfVectorizer
特征预处理:通过特定的统计方法,将数据转换为算法要求的数据
特征预处理API:sklearn.preprocessing
归一化API:sklearn.preprocessing.MinMaxScaler
多个特征同等重要并且特征数据之间差距较大的时候,进行归一化。但归一化容易受异常点的影响,因此该方法鲁棒性较差,只适合传统精确小数据场景。
将原始数据变换到均值为0,标准差为1的范围内
标准化API:
sklearn.preprocessing.StandardScaler
标准化适合现代嘈杂大数据场景,在已有样本足够多的情况下比较稳定。
插补:通过缺失值每行或每列的平均值、中位数来填补(一般按列填补)
API:sklearn.impute.SimpleImputer
数据当中的缺失值标记:默认为np.nan
以上是“python机器学习中特征工程算法的示例分析”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。