几何距离与函数距离:解锁数据空间中的奥秘
几何距离:直观的空间度量
几何距离,顾名思义,是我们在几何学中熟悉的距离概念,如欧几里得距离、曼哈顿距离和切比雪夫距离等。这些距离度量直接反映了数据点在多维空间中的位置关系。
-
欧几里得距离:最为人熟知的几何距离之一,它表示两点之间的直线距离。在二维平面上,两点A(x1,y1)和B(x2,y2)之间的欧几里得距离为(x2−x1)2+(y2−y1)2。在更高维空间中,该公式可以相应扩展。
-
曼哈顿距离:又称城市街区距离,它计算的是两点在标准坐标系上绝对轴距总和。在二维平面上,从点A到点B的曼哈顿距离为∣x2−x1∣+∣y2−y1∣。这种距离度量特别适用于那些只能沿坐标轴方向移动的场景。
-
切比雪夫距离:定义为两点之间各坐标数值差的最大值。在二维平面上,两点间的切比雪夫距离为max(∣x2−x1∣,∣y2−y1∣)。它常用于棋盘格上的移动问题。
几何距离以其直观性和易理解性,在数据分析和机器学习中得到了广泛应用。它们不仅用于计算数据点之间的相似度,还常用于聚类分析、异常检测等领域。
函数距离:灵活的数据关系表达
与几何距离不同,函数距离并非直接基于数据点在空间中的位置来定义,而是通过某种函数关系来反映数据点之间的“距离”。这种距离往往更加灵活,能够捕捉到数据之间的复杂关系。
在支持向量机(SVM)中,函数距离(也称为功能间隔)是一个核心概念。它表示数据点到超平面的距离,但这个距离并非物理上的直线距离,而是通过超平面的函数表达式f(x)=wTx+b来定义的。具体来说,对于数据点x,其到超平面的函数距离为∣f(x)∣。注意,这里的“距离”是带符号的,反映了数据点位于超平面的哪一侧。
为了统一度量标准,SVM中常使用几何间隔作为优化目标,它是对函数间隔进行归一化处理后的结果。几何间隔不仅考虑了数据点到超平面的垂直距离,还考虑了超平面的法向量长度,从而消除了不同超平面因法向量长度不同而导致的距离差异。
几何距离与函数距离的交汇
虽然几何距离和函数距离在定义和应用上有所不同,但它们在某些情况下可以相互转化或相互补充。例如,在SVM中,通过最大化几何间隔来寻找最优超平面的过程,实际上是在寻找一个能够最大化数据点到超平面最小函数距离的超平面。这里,函数距离作为优化的中间量,最终转化为了几何距离的优化问题。
此外,在数据预处理和特征工程中,我们有时会通过变换数据或定义新的距离度量(如基于核函数的距离),来使原本在几何空间中不易区分的数据点在新的距离度量下变得可分。这种转换往往涉及到函数关系的构建和应用,从而实现了几何距离与函数距离的交汇。