温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

如何进行FM算法原理分析与实践

发布时间:2021-12-28 09:26:16 来源:亿速云 阅读:109 作者:柒染 栏目:大数据

本篇文章为大家展示了如何进行FM算法原理分析与实践,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

简介

FM是Steffen Rendle在2010年提出的,FM算法的核心在于特征组合,以此来减少人工参与特征组合工作。对于FM,其优势可分以下三点: 

  1. FM能处理数据高度稀疏场景,SVM则不能;

  2. FM具有线性的计算复杂度,而SVM依赖于support vector。

  3. FM能够在任意的实数特征向量中生效。


FM原理

FM的数据结构如下

如何进行FM算法原理分析与实践

FM通过不同特征的组合,生成新的含义。然而,特征组合也随之带来一些问题: 

  1. 特征之间两两组合容易导致维度灾难; 

  2. 组合后的特征未必有效,可能存在特征冗余现象; 

  3. 组合后特征样本非常稀疏,如果原始样本中不存在对应的组合,则无法学习参数,那么该组合就显得无效。

虽然有这些缺点,但是也并不影响FM在广告推荐领域的地位,每个算法都有风靡一时的过去,抱着敬畏之心的态度去学习是没问题的。下面,来看看FM的算法原理。

目标函数

我们知道,线性模型的目标函数为:

如何进行FM算法原理分析与实践

分类模型

FM可以用来进行分类,为了方便,这里使用sklearn里面的iris数据集作为实验数据,将target等于2的作为正样本,其余作为负样本,并采用train_test_split方法划分训练集与测试集,然后通过FM构建分类模型,并通过测试集验证FM的效果。完整Demo代码如下

from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom pyfm import pylibfmfrom sklearn.feature_extraction import DictVectorizer
def load_data():    """    调用sklearn的iris数据集,筛选正负样本并构造切分训练测试数据集    """    iris_data = load_iris()    X = iris_data['data']    y = iris_data['target'] == 2    data = [ {v: k for k, v in dict(zip(i, range(len(i)))).items()}  for i in X]    X_train,X_test,y_train, y_test = train_test_split(data,y, test_size=0.3, random_state=0)    return X_train,X_test,y_train, y_test
X_train,X_test,y_train, y_test = load_data()
v = DictVectorizer()X_train = v.fit_transform(X_train)X_test = v.transform(X_test)
fm = pylibfm.FM(num_factors=2,                num_iter=200,                verbose=True,                task="classification",                initial_learning_rate=0.001,                learning_rate_schedule="optimal")
fm.fit(X_train, y_train)
y_preds = fm.predict(X_test)y_preds_label = y_preds > 0.5from sklearn.metrics import log_loss,accuracy_scoreprint ("Validation log loss: %.4f" % log_loss(y_test, y_preds))print ("accuracy: %.4f" % accuracy_score(y_test, y_preds_label))

实验结果

通过上面代码,跑出的结果如下(注:每次实验结果不一定相同):

Training log loss: 0.12161Validation log loss: 0.1868accuracy: 0.9778

上述内容就是如何进行FM算法原理分析与实践,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注亿速云行业资讯频道。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI