之前写k-近邻算法(http://boytnt.blog.51cto.com/966121/1569629)的时候,没附上测试数据,这回找了一个,测试一下算法的效果。数据来源于http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data,关于乳腺癌的样本,属性描述见breast-cancer-wisconsin.names。
样本的大致形式如下:
1000025,5,1,1,1,2,1,3,1,1,2
第1个属性是编号,我们不关心,最后一个属性是结果,2表示benign(良性),4表示malignant(恶性)。其余9个属性是样本特征。注意里面有缺失数据(用?表示,共计16行,占2.3%),计算时要先做数据清洗,这里简单填充成0即可。
用k-近邻算法来测试一下:
public void TestNearestNeighbour()
{
var trainingSet = new List<DataVector<double>>();
var testSet = new List<DataVector<double>>();
//读取数据
var file = new StreamReader("breast-cancer-wisconsin.txt", Encoding.Default);
for(int i = 0;i < 699;++i)
{
string line = file.ReadLine();
var parts = line.Split(',');
var p = new DataVector<double>(9);
for(int j = 0;j < p.Dimension;++j)
{
if(parts[j + 1] == "?")
parts[j + 1] = "0";
p.Data[j] = Convert.ToDouble(parts[j + 1]);
}
p.Label = Convert.ToInt32(parts[10]) == 2 ? "benign" : "malignant";
//用600个样本做训练,剩下99个做测试
if(i < 600)
trainingSet.Add(p);
else
testSet.Add(p);
}
file.Close();
//检验
var nn = new NearestNeighbour();
nn.Train(trainingSet);
int error = 0;
foreach(var p in testSet)
{
var label = nn.Classify(p);
if(label != p.Label)
++error;
}
Console.WriteLine("Error = {0}/{1}, {2}%", error, testSet.Count, (error * 100.0 / testSet.Count));
}
运行结果是99个测试样本猜错2个,错误率2.02%,效果不错。
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。