武进网站建设,wordpress搜索关闭,中小企业网站建设教程,石家庄网站seo顾问主成分分析法#xff08;PCA#xff09; 主成分分析法#xff08;PCA#xff09;主成分分析的基本思想主成分的计算主成分分析的原理主成分分析的特点主成分分析的应用 主成分分析法#xff08;PCA#xff09;
主成分分析的基本思想
PCA是1901 年Pearson在研究回归分析… 主成分分析法PCA 主成分分析法PCA主成分分析的基本思想主成分的计算主成分分析的原理主成分分析的特点主成分分析的应用 主成分分析法PCA
主成分分析的基本思想
PCA是1901 年Pearson在研究回归分析时附带提出的其数学基础是在1933 年由Hotelling奠定。由于各种量测到数据通常是以矩阵的形式记录、表达和存储的实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼抽取出有意义、独立的变量。主成分分析(Principal Component Analysis, 简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。它把原有的多个指标转化成少数几个代表性较好的综合指标这少数几个指标能够反映原来指标大部分的信息85%以上并且各个指标之间保持独立避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。 为什么要进行主成分分析 压缩变量个数用较少的变量去解释原始数据中的大部分变量剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量也就是所谓的主成分。 消除原始变量间存在的共线性克服由此造成的运算不稳定、矩阵病态等问题。
主成分分析试图在力保数据信息丢失最少的原则下对这种多变量的截面数据表进行最佳综合简化也就是说对高维变量空间进行降维处理 很显然系统在一个低维空间要比在一个高维空间容易得多。
维数对分类的影响
在实际应用中当特征个数增加到某一个临界点后继续增加反而会导致分类器的性能变差。
数据降维
主成分的计算
考虑这样一个问题有n个d维的样本 x 1 , x 2 , x 3 , … , x n x_1, x_2, x_3, …, x_n x1,x2,x3,…,xn,如何能够用仅仅一个d维的向量 x 0 x_0 x0来最好代表这n个样本或者更确切的说我们希望这个代表向量 x 0 x_0 x0与各个样本 x k k 1 , 2 … . . , n x_kk1,2…..,n xkk1,2…..,n的距离的平方和越小越好。 只要把向量 x k x_k xk向通过样本均值的直线w作垂直投影就能得到最小平方误差的结果。 协方差矩阵能处理多维问题协方差矩阵是一个对称矩阵而且对角线是各个维度上的方差。协方差矩阵计算的是不同维度之间的协方差而不是不同样本之间的。样本矩阵中若每行是一个样本则每列为一个维度所以计算协方差时要按列计算均值。
结论为了最大化 w T S w w^TSw wTSw我们选取协方差矩阵S最大特征值对应的那个特征向量最为投影直线w的方向。
主成分求解步骤
主成分分析的原理
根据方差特征值最大化原理用一组新的、线性无关且相互正交的向量来表征原来数据矩阵的行或列。这组新向量主成分是原始数据向量的线性组合。通过对原始数据的平移、尺度伸缩(减均值除方差)和坐标旋转(特征分解)得到新的坐标系(特征向量)后用原始数据在新坐标系下的投影(点积)来替代原始变量。
主成分分析的特点
主成分是原变量的线性组合各个主成分之间互不相关不同的主成分轴之间相互正交。主成分按照方差从大到小依次排列第一主成分对应最大的方差特征值每个主成分方差为协方差阵对应的特征值
主成分分析的应用
人脸图像降维