对于特征的基本要求:必须具有相关性
当不清楚特征是否有用时,则需要特征越多越好,之后再通过特征工程进行降维
我们认为真正能够决定问题的特征维度应该不多
所以希望将高维特征降低到低维特征
可以看作是一簇函数f的集合
无论是分类还是聚类,实际都可以看作是一种降维
对于线性的f:
特征选择与特征提取的区别:
相当于将数据重新投射到红线(与黄线)上
新投射的维度一定是互相正交的(没有互信息),同时是有排序的(红色比黄色有限),这些维度被称为主成分