机器学习算法：补一个k-近邻算法的测试

发布时间：2020-06-13 05:56:10 来源：网络阅读：1388 作者：BoyTNT 栏目：编程语言

之前写k-近邻算法（http://boytnt.blog.51cto.com/966121/1569629）的时候，没附上测试数据，这回找了一个，测试一下算法的效果。数据来源于http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data，关于乳腺癌的样本，属性描述见breast-cancer-wisconsin.names。

样本的大致形式如下：

1000025,5,1,1,1,2,1,3,1,1,2

第1个属性是编号，我们不关心，最后一个属性是结果，2表示benign（良性），4表示malignant（恶性）。其余9个属性是样本特征。注意里面有缺失数据（用？表示，共计16行，占2.3%），计算时要先做数据清洗，这里简单填充成0即可。

用k-近邻算法来测试一下：

public void TestNearestNeighbour()
{
    var trainingSet = new List<DataVector<double>>();
    var testSet = new List<DataVector<double>>();
    
    //读取数据
    var file = new StreamReader("breast-cancer-wisconsin.txt", Encoding.Default);
    for(int i = 0;i < 699;++i)
    {
        string line = file.ReadLine();
        var parts = line.Split(',');
        
        var p = new DataVector<double>(9);
        for(int j = 0;j < p.Dimension;++j)
        {
            if(parts[j + 1] == "?")
                parts[j + 1] = "0";
            p.Data[j] = Convert.ToDouble(parts[j + 1]);
        }
        p.Label = Convert.ToInt32(parts[10]) == 2 ? "benign" : "malignant";
        
        //用600个样本做训练，剩下99个做测试
        if(i < 600)
            trainingSet.Add(p);
        else
            testSet.Add(p);
    }
    file.Close();
    
    //检验
    var nn = new NearestNeighbour();
    nn.Train(trainingSet);
    int error = 0;
    foreach(var p in testSet)
    {
        var label = nn.Classify(p);
        if(label != p.Label)
            ++error;
    }
    
    Console.WriteLine("Error = {0}/{1}, {2}%", error, testSet.Count, (error * 100.0 / testSet.Count));
}

运行结果是99个测试样本猜错2个，错误率2.02%，效果不错。

附件：http://down.51cto.com/data/2365048

向AI问一下细节

机器学习算法：补一个k-近邻算法的测试

猜你喜欢

最新资讯

相关推荐

相关标签