Introduction

对于特征的基本要求:必须具有相关性

当不清楚特征是否有用时,则需要特征越多越好,之后再通过特征工程进行降维

Untitled

我们认为真正能够决定问题的特征维度应该不多

所以希望将高维特征降低到低维特征

Untitled

可以看作是一簇函数f的集合

无论是分类还是聚类,实际都可以看作是一种降维

对于线性的f:

Untitled

Untitled

特征选择与特征提取的区别:

Untitled

Untitled

Principal Component Analysis (PCA)

Untitled

相当于将数据重新投射到红线(与黄线)上

新投射的维度一定是互相正交的(没有互信息),同时是有排序的(红色比黄色有限),这些维度被称为主成分