k-近邻算法(k-Nearest Neighbor,k-NN)是一种基本分类与回归方法,它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系;输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。
在实际工作中,根据使用的特征数的不同,k-NN算法可以看作是一种由用户定义的近似搜索算法,这有利于查找出最相似的样本集中数据,然后从中提取出分类标签。
k-NN算法可以用来实现离散性数据的分类,也可以用来对连续性数据进行回归分析,此时需要先将连续性数据离散化,然后再运用k-NN算法。在这种情况下,k-NN算法中的k值需要大于1,这样能够确保计算出的变量均值能够更准确地代表该训练数据集的群体正确假设,从而更准确地进行数据预测分析。
由于k-NN算法对数据比较直观,而且可以考虑到数据之间的关系,所以在很多实际应用中都有所应用,比如:地理信息系统(GIS)中使用K-NN算法来确定任意点的地理标记;基于用户的推荐系统中使用K-NN算法来为用户推荐最匹配的物品;文本分类中使用K-NN算法对文档进行分类;图像分类与识别中使用K-NN算法实现基于特征的图像识别等等。
本文地址:IT问答频道 https://www.eeeoo.cn/itwenda/1061452.html,嗨游网一个专业手游免费下载攻略知识分享平台,本站部分内容来自网络分享,不对内容负责,如有涉及到您的权益,请联系我们删除,谢谢!