主成分分析

如何利用spss进行主成分分析

主成分分析,是现将原始数据标准化;建立变量之间的相关系数矩阵;求R的特征值和特征向量;写出主成分并进行分析。spss的操作:分析-回归分析-线性。将变量选入因变量,将其他几个考察因素选入自变量。进行多重回归分析及共线性诊断。之后金牛星主成分分析确定所需主成分操作:分析-降维-因子分析,打开主成分分析,将变量选入列表框。
苏萦2023-05-23 19:24:191

详解主成分分析PCA

主成分分析( Principal components analysis),简称PCA,是最主要的数据降维方法之一。本文从PCA的思想开始,一步一步推导PCA。 对于 , 。我们希望 从 维降到 维,同时希望信息损失最少。比如,从 维降到 : 我们既可以降维到第一主成分轴,也可以降维到第二主成分轴。那么如何找到这这些主成分轴并且选择最优成分轴呢? 直观上,第一主成分轴 优于 第二主成分轴,即具有最大可分性。 下面解决一些基本概念。 欲获得原始数据新的表示空间,最简单的方法是对原始数据进行线性变换(基变换): 其中 是原始样本, 是基向量, 是新表达。 数学表达: 其中 是行向量,表示第 个基, 是一个列向量,表示第 个原始数据记录. 当 时即 基的维度 < 数据维度时,可达到降维的目的。即: 以直角坐标系下的点(3,2)为例,欲将点(3,2)变换为新基上的坐标,就是用(3,2)与第一个基做内积运算,作为第一个新的坐标分量,然后用(3,2)与第二个基做内积运算,作为第二个新坐标的分量。 可以稍微推广一下,如果我们有m个二维向量,只要将二维向量按列排成一个两行m列矩阵,然后用“基矩阵”乘以这个矩阵,就得到了所有这些向量在新基下的值。例如(1,1),(2,2),(3,3),想变换到刚才那组基上,则可以这样表示: 回顾一下,我们的目的是希望在降维过程中损失最少,换言之,我们希望投影后的数据尽可能分散开。这种分散程度可以用方差来表达, 方差 越大,数据越分散。 随机变量 表达了 的取值与其数学期望之间的偏离程度。若 较小,意味着 的取值主要集中在期望 也就是 的附近,反之,若 较大,意味着 的取值比较分散。 为了避免过于抽象,我们以一个具体的例子展开。假设我们5个样本数据,分别是 ,将它们表示成矩阵形式: 为了后续处理方便,我们首先将每个字段内所有值都减去字段均值,其结果是将每个字段都变为均值为0. 我们看上面的数据,设第一个特征为 ,第二个特征为 , 此时某一个样本可以写作: 且特征 的均值为2, 特征 的均值为3,所以变换后: 协方差 (Covariance)在 概率论 和 统计学 中用于衡量两个变量的总体 误差 。 比如对于二维随机变量 ,特征 除了自身的数学期望和方差,还需要讨论 之间互相关系的数学特征。 当 时,变量 完全独立,这也是我们希望达到的优化目标。 方差 是协方差的一种特殊情况,即当两个变量是相同的情况: 对于 二维 随机变量 , 对于 n维 随机变量 , 可见,协方差矩阵是 行 列的对称矩阵,主对角线上是方差,而协对角线上是协方差。 依然我们以一个具体的例子展开,还是这5个样本数据, , ,将它们去中心化后表示成矩阵形式: 那如果有 个样本的话, 对 做一些变换,用 乘以 的转置,并乘上系数1/m: 这不正是协方差矩阵嘛! 现在我们可以说: 回顾一下: 设 的协方差矩阵为 , 的协方差矩阵为 ,且 。 我们要找的 不是别的,而是能让原始协方差矩阵对角化的 。 现在所有焦点都聚焦在了 协方差矩阵对角化 问题上。 由上文知道,协方差矩阵 是一个是对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质: 1)实对称矩阵不同特征值对应的特征向量必然正交。 2)设特征向量 重数为 ,则必然存在 个线性无关的特征向量对应于 ,因此可以将这 个特征向量单位正交化。 由上面两条可知,一个 行 列的实对称矩阵一定可以找到 个单位正交特征向量,设这 个特征向量为 ,我们将其按列组成矩阵: 则对协方差矩阵 有如下结论: 其中 为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。 结合上面的公式: 其中, 为对角矩阵,我们可以得到: 是协方差矩阵 的特征向量单位化后按行排列出的矩阵,其中每一行都是 的一个特征向量。如果设 按照 中特征值的从大到小,将特征向量从上到下排列,则用 的前 行组成的矩阵乘以原始数据矩阵 ,就得到了我们需要的降维后的数据矩阵 。 总结一下PCA的算法步骤: 设有 条 维数据。 1)将原始数据按列组成 行 列矩阵X 2)将 的每一行(代表一个特征)进行零均值化,即减去这一行的均值 3)求出协方差矩阵 4)求出协方差矩阵 的特征值及对应的特征向量 5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 行组成矩阵 6) 即为降维到 维后的数据 这里以上文提到的: ,将它们表示成矩阵形式: 我们用PCA方法将这组二维数据其降到一维。 为了后续处理方便,我们首先将每个特征内所有值都减去字段均值,其结果是将每个字段都变为均值为0. 因为这个矩阵的每行已经是零均值,这里我们直接求协方差矩阵: 对于矩阵 : 和 分别是特征值和特征向量, ,则: 为了使这个方程式有非零解,矩阵 的行列式必须是 0 : 即: 则: 分解得: 找到2个特征值, , , when : 即: 则: 和 可以取任意值,我们取归一化的 和 ,即: , 此时 和 when : 即: 则: 和 可以取任意值,我们取归一化的 和 ,即: 此时 和 所以: 可以验证协方差矩阵C的对角化: 最后我们用 的第一行乘以数据矩阵,就得到了降维后的表示: 降维投影结果如下图:
此后故乡只2023-05-23 19:24:191

主成分分析只提取一个主成分可以吗

主成分分析只提取一个主成分是不可以的。应保留多少个主成分要视具体情况,很难一概而论,最终还得依赖于主观判断。当取一个和二个主成分都可行时,取一个的优点是可以对各样品进行综合排序(如果这种排序是有实际意义的)。如果只提取了一个主成分,可能是数据存在问题,也有可能是这些变量之间本身就存在很强的相关性,所以主成分分析只能提取一个主成分。扩展资料:主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
tt白2023-05-23 19:24:191

主成分分析中的主成分是指哪部分?

主成分是标准化后的特征向量和原指标的线性组合,例如第p主成分:Fp=a1iZX1+a2iZX2+……+apiZXp其中a1i, a2i, ……,api(i=1,……,m)为X的协方差阵Σ的特征值所对应的特征向量,ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化
meira2023-05-23 19:24:191

如何用spss主成分分析的时间序列分析

spss如何做主成分分析 主成分分析的主要原理是寻找一个适当的线性变换: •将彼此相关的变量转变为彼此独立的新变量; •方差较大的几个新变量就能综合反应原多个变量所包含的主要信息; •新变量各自带有独特的专业含义。 住成分分析的作用是: •减少指标变量的个数 •解决多重相关性问题 步骤阅读 工具/原料 spss20.0 方法/步骤 >01 先在spss中准备好要处理的数据,然后在菜单栏上执行:analyse--dimension reduction--factor analyse。打开因素分析对话框 >02 我们看到下图就是因素分析的对话框,将要分析的变量都放入variables窗口中 >03 点击descriptives按钮,进入次级对话框,这个对话框可以输出我们想要看到的描述统计量 >04 因为做主成分分析需要我们看一下各个变量之间的相关,对变量间的关系有一个了解,所以需要输出相关,勾选coefficience,点击continue,返回主对话框 >05 回到主对话框,点击ok,开始输出数据处理结果 >06 你看到的这第一个表格就是相关矩阵,现实的是各个变量之间的相关系数,通过相关系数,你可以看到各个变量之间的相关,进而了解各个变量之间的关系 >07 第二个表格显示的主成分分析的过程,我们看到eigenvalues下面的total栏,他的意思就是特征根,他的意义是主成分影响力度的指标,一般以1为标准,如果特征根小于1,说明这个主因素的影响力度还不如一个基本的变量。所以我们只提取特征根大于1的主成分。如图所示,前三个主成分就是大于1的,所以我们只能说有三个主成分。另外,我们看到第一个主成分方差占所有主成分方差的46.9%,第二个占27.5%,第三个占15.0%。这三个累计达到了89.5%。
西柚不是西游2023-05-23 19:24:191

如何用SPSS软件进行主成分分析

如何用SPSS软件进行主成分分析郭显光摘要文章指出《统计分析软件SPSS/PC+》中主成分分析举例中的一处错误,比较了主成分分析和因子分析的异同,进而指出用SPSS软件不能直接进行主成分分析。作者根据主成分分析和因子分析的关系,提出一种先用SPSS的PC法得出因子载荷阵,然后求出特征向量,建立主成分模型的主成分分析计算方法。关键词主成分分析因子分析因子载荷阵特征向量一、关于主成分分析举例中的一处错误在SPSS的高级统计分析命令中,有因子分析的功能。例如,用FACTOR命令可以进行因子分析,用EXTRACTION子命令可以输出因子模型阵、变量被解释的因子方差、所提取的因子特征根和每个特征根代表的变量X总方差的百分比。在使用该命令时,可以指定提取因子的方法,包括PC(主成分法)、PAF(主轴因子法)等等,也可以指定因子旋转方式。在童忠勇教授主编的《统计分析软件SPSS/PC+》(陕西人民教育出版社,1990年)一书中,第213-215页给出了一个例子:某地区对下属12个县人口调查,其中5个经济变量为:X1(住户数)、X2(学校数)、X3(就业人数)、X4(年收......(本文共计5页)
铁血嘟嘟2023-05-23 19:24:191

请问一下如何计算主成分分析法中的主成分得分?

例子:我们简单粗暴直接上例子,我们带着问题看例子,一步一步来。(例子来自《应用多元统计》,王学民老师著)在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样六项:身高(x1)、坐高(x2) 、胸围(x3) 、手臂长(x4) 、肋围(x5)和腰围(x6) 。第一步,对原始数据标准化(减去对应变量的均值,再除以其方差),并计算相关矩阵(或协方差矩阵)第二步,计算相关矩阵的特征值及特征向量。特征值从大到小排列,特征向量和特征值对应从大到小排列。前三个主成分分别为:第三步,根据累计贡献率(一般要求累积贡献率达到85%)可考虑取前面两个或三个主成分。第四步,解释主成分。观察系数发现第一主成分系数多为正数,且变量都与身材大小有关系,称第一主成分为(身材)大小成分;类似分析,称第二主成分为形状成分(或胖瘦成分),称第三主成分为臂长成分。可考虑取前两个主成分。由于λ6非常小,所以存在共线性关系:第五步,计算主成分得分。即对每一个样本数据标准化后带入第三步的主成分公式中,计算第一主成分得分,第二主成分得分。第六步,将主成分可画图聚类,将主成分得分看成新的因变量可线性回归。扩展资料设有m条n维数据,m个样本,对原始数据标准化(减去对应变量的均值,再除以其方差),每个样本对应p个变量,x=(x∗1,x∗2,⋯,x∗n)′x=(x1∗,x2∗,⋯,xn∗)′。1、求出自变量的协方差矩阵(或相关系数矩阵);2、求出协方差矩阵(或性关系数矩阵)的特征值及对应的特征向量;3、将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵aa(为k*p维);4、Y=aT∗XaT∗X(Y为k*1维)即为降维到k维后的数据,此步算出每个样本的主成分得分;5、可将每个样本的主成分得分画散点图及聚类,或将主成分得分看成新的因变量,对其做线性回归等。
gitcloud2023-05-23 19:24:191

主成分分析的基本思想

主成分分析的基本思想是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。历史:1846年,Bracais提出的旋转多元正态椭球到“主坐标”上,使得新变量之间相互独立。皮尔逊(Pearson)(1901)、霍特林(Hotelling)(1933)都对主成分的发展做出了贡献,霍特林的推导模式被视为主成分模型的成熟标志。主成分分析被广泛应用于区域经济发展评价,服装标准制定,满意度测评,模式识别,图像压缩等许多领域。
u投在线2023-05-23 19:24:191

主成分分析法原理

主成分分析法原理如下:主成分分析, 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
mlhxueli 2023-05-23 19:24:191

主成分分析

1.主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在统计分析中也称为变量。因为每个变量都不同程度地反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。 2.科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息 (1)主成分个数远远少于原有变量的个数  原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。  (2)主成分能够反映原有变量的绝大部分信息  因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有 变量信息的大量丢失,并能够代表原有变量的绝大部分信息 (3)主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题 (4)主成分具有命名解释性 一、对原始数据进行标准化 二、计算相关系数矩阵 三、计算特征值与特征向量 四、计算主成分载荷 五、各主成分的得分 主成分分析有以下几方面的应用: ①对原始指标进行综合:主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原来指标所提供的信息。 ②探索多个原始指标对个体特征的影响:对于多个原始指标,求出主成分后,可以利用因子载荷阵的结构,进一步探索各主成分与多个原始指标之间的相互关系,分析各原始指标对各主成分的影响作用。 ③对样本进行分类:求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分类,可能就会与分类预测算法结合。 我们也可以思考下,每一个数据处理算法都不是孤立存在的,而是相互补充。
可桃可挑2023-05-23 19:24:181

什么是主成分分析?主成分分析的步骤有哪些

主成分分析是指通过将一组可能存在相关性的变量转换城一组线性不相关的变量,转换后的这组变量叫主成分。主成分分析步骤:1、对原始数据标准化,2、计算相关系数,3、计算特征,4、确定主成分,5、合成主成分。美信分析
LuckySXyd2023-05-23 19:24:182

主成分分析法介绍 什么是主成分分析法

1、主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。 2、在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。 3、主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
凡尘2023-05-23 19:24:181

主成分分析的理解

主成分分析PCA是将多指标重新组合成一组新的无相关的几个综合指标,是根据实际需要从中选取尽可能少的综合指标,以达到尽可能多地反应原指标信息的分析方法。由于这种方法的第一主成分在所有的原始变量中方差最大,因而综合评价函数的方差总不会超过第一主成分的方差,所以该方法有一定的缺陷,且提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),所以在变量较少时就不太适合先用主成分筛选变量,这个视数据情况而定 主成分分析实现步骤: 1、原始数据标准化,消除变量量纲不同的影响; 2、计算相关系数矩阵,计算特征值和对应的特征向量; 3、计算贡献率和累计贡献率。 疑问解答: 1.计算特征值的含义?    PCA的本质是对角化协方差矩阵,后对一个n x n的对称协方差矩阵分解求特征值和特征向量,就会产生n个n维正交基,每个正交基对应一个特征值,吧矩阵投影在这n个基上,此时的特征值的横就表示在该基上的投影长度,特征值越大,说明矩阵对应的特征向量上的方差越大,样本点越离散,越容易区分,包含的信息量越多 2.主成分系数   根据主成分系数判断主成分主要依赖的几个变量,根据主要依赖变量总结该主成分(综合指标)代表的性质 3.主成分得分   主成分得分其实就是降维之后数据,可对降维之后的主成分得分进行聚类分析,得到相似的类别群体
韦斯特兰2023-05-23 19:24:181

如何理解主成分分析法 (PCA)

什么是主成分分析法 主成分分析法: 英文全名 Principal Component Analysis 简称 PCA ,由名字就可以看出来,这是一个挑重点分析的方法。主成分分析 法是通过 恰当 的数学变换 ,使新变量—— 主成分成为原变量 的线性 组合 ,并选 取少数 几个在变差总信息量中 比例较 大的主成分来分析 事物 的一种方法 。 主成分在变差信息量中的比例越大 , 它在综合评价 中的作用就越大 思想: 整体思想就是化繁为简,抓住问题关键,也就是降维思想。当然,既然是抓住关键,那么自然就是以牺牲精度为代价。 解决问题: 因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。 在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性。 人们希望在进行定量分析过程中,涉及的变量较少,得到的信息量较多。为了尽可能的减少冗余和噪音,一般情况可以从相关变量中选择一个,或者把几个相关变量综合为一个变量作为代表,用少数变量来代表所有变量。 原理: 因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量和相关矩阵的内部结构的关系研究 ,找出影响目标变量某一要素的几个综合指标,使综合指标为原来变量的线性拟合。 这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,使得我们在研究复杂目标变量评估问题时,容易抓住主要矛盾。 形象理解 比如,某学籍数据,有两列 M 和 F ,其中M 列的取值是如果学生为男性,则取值为 1 如果为女性,则取值为 0 。F 列,如果为男性则取值为 0 否则取值为一。 由这两种关系可以知道,这两列数据是强相关的。只要保留一列,就能够完全还原另外一列。  当然,不要局限于数据删除,还有数据转换,删除可以理解为在此方法中的一种方式。 当然,上述情况在真实数据中是不可能出现的。这里只是借此介绍一下这种思维。真实情况中, 我们需要考虑删除哪一列信息可以使得损失最小?或者是通过变换数据就能使得损失信息更小?又如何度量信息的丢失量?原始数据的处理降维有哪些步骤? 坐标示例: 我们来看下面这张图,这是一个椭圆的点阵。椭圆上面有一个长轴和一个短轴。现在我们要表示点阵的主要变化趋势,就可以以长短轴(或者平行于长短轴)构建新的坐标系。在极端的情况下,短轴变成了一个点,那么长轴就能代表这个点阵的趋势和特点。这样,一个二维数据,就变成了一维。 基础知识储备 内积与投影: 内积运算,将两个向量映射为一个实数。其几何意义就是 向量 A ,在向量 B 的投影长度。(下图是以二维向量为例,多维空间依然是如此。) 上式中,B 为单位向量 基 : 同样以上图 B为例,B向量为(3,2)其表示的其实为在 X 轴的投影值为3 ,在Y轴的投影值 为 2 。这其实加入了一个隐含信息,就是本坐标轴 分别是以 X Y轴为方向的单位向量。这里的 X Y 轴其实就是我们所提到的 基。只不过一般默认为 (1,0)和(0,1) 所以呢,要描述一组向量,首先是要确定一组基。然后求这个向量在这组基中的投影即可。对基的要求是线性无关,并不一定非要正交。但是因为正交基有较好的性质,所以一般情况我们都是用正交基。 基变换 上面我们了解了基的原理。如果同样把(3,2)放到新基里面描述,那就是把向量和新基相乘即可。 如果是在描述中,有多个基呢?那就是与基阵相乘。 如何实现降维 上面的思路,我们都清楚了。那么我们如何通过基变换来降维呢?这里我们来举个例子。假设我们有一个矩阵如下。 为了处理方面,我们现在把每个字段都减去字段平均值,那么就变成了如下所示 表示在坐标上如下图 那么,我们现在想用一维坐标来表示,而且要求尽可能的保留原来的信息,我们需要如何选择方向(基)呢?(二维降一维) 思路就是,希望投影后的值尽可能的分散,避免重合。 协方差: 在概率论与统计学中,协方差用于衡量两个随机变量的联合变化程度。而方差则是协方差的一种特殊情况,即变量与自身的协方差。 期望:在概率论和统计学中,一个离散性随机变量的期望值(或数学期望,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和。比如骰子的期望值为 1* 1/6 +2*1/6 + …+ 6*1/6 = 3.5 协方差公式为: 其中,E(X) = u E(Y) = v 协方差表示的是两个变量的总体的误差 ,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果X 与Y 是统计独立的,那么二者之间的协方差就是0 流程和步骤 第一步:标准化 把输入数据集变量的范围标准化,以使它们中的每一个均可以大致成比例的分析。简单说,就是要把存在较大差异的数据转变为可比较的数据。比如把 0-100 的变量转化为 0-1 的变量。这一步一般可以通过减去平均值,再除以每个变量值的标准差来完成。标准差公式如下 那么常用的标准化指标变量公式可为 第二步:协方差矩阵计算 这一步的目的是:了解输入数据集的变量是如何相对于平均值变化的。或者换句话说,是为了查看它们之间是否存在任何关系。因为有时候,变量间高度相关是因为它们包含大量的信息。因此,为了识别这些相关性,我们进行协方差矩阵计算。 协方差矩阵是p×p对称矩阵(其中p是维数),其所有可能的初始变量与相关联的协方差作为条目。 好了,现在我们知道协方差矩阵只不过是一个表,汇总了所有可能配对的变量间相关性。下面就是计算协方差矩阵的特征向量和特征值,以筛选主要成分。 第三步:计算协方差矩阵的特征向量和特征值,用以识别主成分 特征向量和特征值都是线性代数概念,需要从协方差矩阵计算得出,以便确定数据的主成分。开始解释这些概念之前,让我们首先理解主成分的含义 主成分是由初始变量的线性组合或混合构成的新变量。该组合中新变量(如主成分)之间彼此不相关,且大部分初始变量都被压缩进首个成分中。所以,10维数据会显示10个主成分,但是PCA试图在第一个成分中得到尽可能多的信息,然后在第二个成分中得到尽可能多的剩余信息,以此类推。 例如,假设你有一个10维数据,你最终将得到的内容如下面的屏幕图所示,其中第一个主成分包含原始数据集的大部分信息,而最后一个主成分只包含其中的很少部分。因此,以这种方式组织信息,可以在不丢失太多信息的情况下减少维度,而这需要丢弃携带较少信息的成分。 在这里,方差和信息间的关系是,线所承载的方差越大,数据点沿着它的分散也越大,沿着线的散点越多,它所携带的信息也越多。简单地说,只要把主成分看作是提供最佳角度来观察和评估数据的新轴,这样观测结果之间的差异就会更明显。 协方差矩阵的特征向量实际上是方差最多的轴的方向(或最多的信息),我们称之为主成分。通过特征值的顺序对特征向量进行排序,从最高到最低,你就得到了按重要性排序的主成分。 第四步:特征向量 正如我们在上一步中所看到的,计算特征向量并按其特征值依降序排列,使我们能够按重要性顺序找到主成分。在这个步骤中我们要做的,是选择保留所有成分还是丢弃那些重要性较低的成分(低特征值),并与其他成分形成一个向量矩阵,我们称之为特征向量。 因此,特征向量只是一个矩阵,其中包含我们决定保留的成分的特征向量作为列。这是降维的第一步,因为如果我们选择只保留n个特征向量(分量)中的p个,则最终数据集将只有p维。 第五步:沿主成分轴重新绘制数据 在前面的步骤中,除了标准化之外,你不需要更改任何数据,只需选择主成分,形成特征向量,但输入数据集时要始终与原始轴统一(即初始变量)。 这一步,也是最后一步,目标是使用协方差矩阵的特征向量去形成新特征向量,将数据从原始轴重新定位到由主成分轴中(因此称为主成分分析)。这可以通过将原始数据集的转置乘以特征向量的转置来完成。 优缺点 优点:化繁为简,降低了计算量。 缺点:一定程度上损失了精度。并且只能处理“线性问题”,这是一种线性降维技术、 总结 假设我们拿到了一份数据集,有m个样本,每个样本由n个特征(变量)来描述,那么我们可以按照以下的步骤进行降维: 1、将数据集中的每个样本作为列向量,按列排列构成一个n行m列的矩阵; 2、将矩阵的每一个行向量(每个变量)都减去该行向量的均值,从而使得新行向量的均值为0,得到新的数据集矩阵X; 3、求X的协方差矩阵,并求出协方差矩阵的特征值λ和单位特征向量e; 4、按照特征值从大到小的顺序,将单位特征向量排列成矩阵,得到转换矩阵P,并按PX计算出主成分矩阵; 5、用特征值计算方差贡献率和方差累计贡献率,取方差累计贡献率超过85%的前k个主成分,或者想降至特定的k维,直接取前k个主成分。 参考文章: https://blog.csdn.net/Murray_/article/details/79945148 参考文章: https://www.cnblogs.com/Luv-GEM/p/10765574.html 参考文章: https://www.ssffx.com/wangzhanjianshe/40715.html
bikbok2023-05-23 19:24:181

主成分分析(PCA)

在前面我们学习了一种有监督的降维方法——线性判别分析(Linear Dscriminant Analysis,LDA)。LDA不仅是一种数据压缩方法还是一种分类算法,LDA将一个高维空间中的数据投影到一个低维空间中去,通过最小化投影后各个类别的类内方差和类间均值差来寻找最佳的投影空间。 本文介绍的主成分分析(Principe Component Analysis,PCA)也是一种降维技术,与LDA不同的是,PCA是一种无监督降维技术,因此PCA的主要思想也与LDA不同。LDA是一种有监督的分类兼降维技术,因此其最大化均值差最小化类内差的思想够保证在降维后各个类别依然能够很好地分开。但PCA只用来降维而无需分类,因此PCA需要考虑的是如何在降维压缩数据后尽可能的减少数据信息的损失。在PCA中使用协方差来表示信息量的多少,至于为什么能这么表示后面再进行介绍。下面我们从一些基本的线代知识开始。 在进行数据分析时我们的数据样本经常被抽象为矩阵中的一组向量,了解一些线代基础知识理解PCA非常重要,但在这里我们并不准备也不可能将所有的线代知识都罗列以便,因此这里我们仅会复习一些对理解PCA较为重要的东西。更多线代的内容可参考下面几个链接: 为了方便,我们这里以一个二维平面为例。 在前面我们说了,在数据处理时我们经常讲一个样本数据当作一个向量。在二维平面中,一个向量从不同的角度有不同的理解方式,例如对于向量 (-2, 3) T : 在我们描述任何东西的时候其实都是选择了一个参照系的,也即事物都是相对的,最简单的运动与静止(以静止的事物为参照),说一个有点意思的——人,人其实也是放在一个参考系中的,我们可以将其理解为生物种类系统,抛开这个大的系统去独立的定义人是很难让人理解的。向量也是这样的,虽然我们前面没有指明,但是上面的向量其实是在一个默认坐标系(或称为空间)中的,也即x,y轴,但是在线性代数中我们称其为基。在线代中任何空间都是由一组线性无关的(一维空间由一个基组成)基向量组成。这些基向量可以组成空间中的任何向量。 现在假设我们有如下一个矩阵相乘的式子: 因此,上面的例子可以有两种理解方式: (1)如果我们将值全为1对角方阵视为标准坐标系,则它表示在 i=(1, -2) T 和 j=(3, 0) T 这组基底下的坐标 (-1, 2) T 在基底 (1, 0) T 、(0, 1) T 下的坐标,如下: 当我们讨论向量 (-1, 2) T 时,都隐含了一个默认的基向量假设:沿着x轴方向长度为1的 i,沿着y轴长度为1的j。 但是,(-1, 2) T 可以是任何一组基底下的向量。例如,他可能是i"=(2,1) T , j"=(-1, 1) T 这组基下的一个向量。此时他在我们默认坐标系 i=(1, 0) T ,j=(0, 1) T 下的计算过程如下: 我们可以从另一个角度理解基地变换的过程:我们先 误认为 (-1, 2) T 是坐标系i=(1, 0) T ,j=(0, 1) T 下的坐标,此时我们通过线性变换[[2, -1], [1, 1]](每个嵌套列表看做一行)把坐标轴i,j(基坐标)分别变换到了新的位置 i1=(2, 1) T , j1=(-1, 1) T (他们也是用默认坐标系表示的),即[2, -1], [1, 1]]。此时我们把“误解”转换成了真正的向量。如下: 在上面我们说了矩阵是一种变换,现在我们继续从这个角度来理解特征值和特征向量。为了方便理解,我们在这里做一个类比——将变换看作物理中的作用力。我们知道一个力必须有速度和方向,而矩阵对一个向量施加的变换也是一样的。考虑一下特征向量的定义: 上面介绍了一些基本的线性代数相关的知识,下面开始介绍PCA的原理。 上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,而且如果基的数量少于向量本身的维数,则可以达到降维的效果。但是我们还没有回答一个最最关键的问题:如何选择基才是最优的。或者说,如果我们有一组N维向量,现在要将其降到K维(K小于N),那么我们应该如何选择K个基才能最大程度保留原有的信息? 要完全数学化这个问题非常繁杂,这里我们用一种非形式化的直观方法来看这个问题。 为了避免过于抽象的讨论,我们仍以一个具体的例子展开。假设我们的数据由五条记录组成,将它们表示成矩阵形式: 其中每一列为一条数据记录,而一行为一个字段。为了后续处理方便,我们首先将每个字段内所有值都减去字段均值,其结果是将每个字段都变为均值为0(这样做的道理和好处后面会看到)。中心化的数据为: 通过上一节对基变换的讨论我们知道,这个问题实际上是要在二维平面中选择一个方向,将所有数据都投影到这个方向所在直线上,用投影值表示原始记录。这是一个实际的二维降到一维的问题。 那么如何选择这个方向(或者说基)才能尽量保留最多的原始信息呢?一种直观的看法是:希望投影后的投影值尽可能分散。 以上图为例,可以看出如果向x轴投影,那么最左边的两个点会重叠在一起,中间的两个点也会重叠在一起,于是本身四个各不相同的二维点投影后只剩下两个不同的值了,这是一种严重的信息丢失,同理,如果向y轴投影最上面的两个点和分布在x轴上的两个点也会重叠。所以看来x和y轴都不是最好的投影选择。我们直观目测,如果向通过第一象限和第三象限的斜线投影,则五个点在投影后还是可以区分的。 下面,我们用数学方法表述这个问题。 对于上面二维降成一维的问题来说,找到那个使得方差最大的方向就可以了。不过对于更高维,还有一个问题需要解决。考虑三维降到二维问题。与之前相同,首先我们希望找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而我们选择第二个投影方向。 如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是没有用的,因此,应该有其他约束条件。 从直观上说,让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的,因为相关性意味着两个字段不是完全独立,必然存在重复表示的信息。 可以看到,在字段均值为0的情况下,两个字段的协方差简洁的表示为其内积除以元素数m。 当协方差为0时,表示两个字段完全独立。为了让协方差为0,我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。 至此,我们得到了降维问题的优化目标: 将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最大的K个方差)。 上面我们导出了优化目标,但是这个目标似乎不能直接作为操作指南(或者说算法),因为它只说要什么,但根本没有说怎么做。所以我们要继续在数学上研究计算方案。 我们看到,最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示,仔细观察发现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。于是我们来了灵感: 假设我们只有a和b两个字段,那么我们将它们按行组成矩阵X: 然后我们用X乘以X的转置,并乘上系数1/m: 根据矩阵相乘的运算法则,这个结论很容易被推广到一般情况: 设我们有m个n维数据记录,将其按列排成n乘m的矩阵X,设C=1/m(XX T ),则C是一个对称矩阵,其对角线分别个各个字段的方差,而第i行j列和j行i列元素相同,表示i和j两个字段的协方差。 根据上述推导,我们发现要达到优化目前,等价于将协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线上将元素按大小从上到下排列,这样我们就达到了优化目的 。这样说可能还不是很明晰,我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系: 设原始数据矩阵X对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为P对X做基变换后的数据。设Y的协方差矩阵为D,我们推导一下D与C的关系: 现在所有焦点都聚焦在了协方差矩阵对角化问题上,有时,我们真应该感谢数学家的先行,因为矩阵对角化在线性代数领域已经属于被玩烂了的东西,所以这在数学上根本不是问题。 由上文知道,协方差矩阵C是一个是对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质: 1)实对称矩阵不同特征值对应的特征向量必然正交。 2)设特征向量λ重数为r,则必然存在r个线性无关的特征向量对应于λ,因此可以将这r个特征向量单位正交化。 则对协方差矩阵C有如下结论: 以上结论不再给出严格的数学证明,对证明感兴趣的朋友可以参考线性代数书籍关于“实对称矩阵对角化”的内容。 到这里,我们发现我们已经找到了需要的矩阵P:P = E T . P是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是C的一个特征向量。如果设P按照Λ中特征值的从大到小,将特征向量从上到下排列,则用P的前K行组成的矩阵乘以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y。 PCA的特征向量的求解除了使用上述最大化方差的矩阵分解方法,还可以使用最小化损失法,具体可参见: 机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA) 。 总结一下PCA的算法步骤: 设有m条n维数据。 LDA和PCA都用于降维,两者有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。 首先我们看看相同点: 我们接着看看不同点: 参考: PCA的数学原理 线性代数的直觉 线性判别分析LDA原理总结
Ntou1232023-05-23 19:24:181

主成分分析

ENVI主成分分析是通过Principle Components选项生成互不相关的输出波段,达到隔离噪声和减少数据集的维数的方法。 由于多波段数据经常是高度相关的,主成分变换寻找一个原点在数据均值的新的坐标系统,通过坐标轴的旋转来使数据的方差达到最大,从而生成互不相关的输出波段。 主成分(PC)波段是原始波谱波段的线性合成,它们之间是互不相关的。可以计算输出主成分波段(与输入的波谱波段数相同)。第一主成分包含最大的数据方差百分比,第二主成分包含第二大的方差,以此类推,最后的主成分波段由于包含很小的方差(大多数由原始波谱的噪声引起),因此显示为噪声。由于数据的不相关,主成分波段可以生成更多种颜色的。 具体操作: 打开ENVI——File——Open Image File——选择一个影像文件添加 RGB Color——设置RGB为321(不同的影像最佳波段组合不一致)—— No display——New display——Load RGB 点击Transform——Principal Components(主成分分析)——Forward PC Rotation(正向主成分旋转)——Computer New Statistics and Rotate——选择影像文件,设置输出路径,ok,进入漫长等待中...... 之后同样设置Gray Scale和RGB Color——Display——New Display——Load,就会显示主成分分析之后的影像; 右击#1——Link Displays——选择需要连接的两个窗口,点击ok ,方便对比。
小菜G的建站之路2023-05-23 19:24:181

主成分分析(PCA)简介

主成分分析实例:一个 平均值 为(1, 3)、标准差在(0.878, 0.478)方向上为3、在其正交方向为1的 高斯分布 。这里以黑色显示的两个向量是这个分布的 协方差矩阵 的 特征向量 ,其长度按对应的 特征值 之平方根为比例,并且移动到以原分布的平均值为原点。 在多元统计分析中, 主成分分析 (英语: Principal components analysis , PCA )是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的 维数 ,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。 主成分分析由 卡尔·皮尔逊 于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对 协方差矩阵 进行特征分解,以得出数据的主成分(即 特征向量 )与它们的权值(即 特征值 [3] )。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的 方差 做出解释:哪一个方向上的数据值对方差的影响最大?换而言之,PCA提供了一种降低数据 维度 的有效办法;如果分析者在原数据中除掉最小的 特征值 所对应的成分,那么所得的低维度数据必定是最优化的(也即,这样降低维度必定是失去讯息最少的方法)。主成分分析在分析复杂数据时尤为有用,比如 人脸识别 。 PCA是最简单的以特征量分析多元统计分布的方法。通常情况下,这种运算可以被看作是揭露数据的内部结构,从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来,那么PCA就能够提供一幅比较低维度的图像,这幅图像即为在讯息最多的点上原对象的一个‘投影"。这样就可以利用少量的主成分使得数据的维度降低了。 PCA跟因子分析密切相关,并且已经有很多混合这两种分析的统计包。而真实要素分析则是假定底层结构,求得微小差异矩阵的特征向量。 PCA,Principle Component Analysis,即主成分分析法,是特征降维的最常用手段。顾名思义,PCA 能从冗余特征中提取主要成分,在不太损失模型质量的情况下,提升了模型训练速度。 如上图所示,我们将 样本到红色向量的距离 称作是投影误差(Projection Error)。以二维投影到一维为例,PCA 就是要找寻一条直线,使得各个特征的投影误差足够小,这样才能尽可能的保留原特征具有的信息。 因为PCA仅保留了特征的主成分,所以PCA是一种有损的压缩方式. 从 PCA 的执行流程中,我们知道,需要为 PCA 指定目的维度 k 。如果降维不多,则性能提升不大;如果目标维度太小,则又丢失了许多信息。 由于 PCA 减小了特征维度,因而也有可能带来过拟合的问题。PCA 不是必须的,在机器学习中,一定谨记不要提前优化,只有当算法运行效率不尽如如人意时,再考虑使用 PCA 或者其他特征降维手段来提升训练速度。 降低特征维度不只能加速模型的训练速度,还能帮我们在低维空间分析数据,例如,一个在三维空间完成的聚类问题,我们可以通过 PCA 将特征降低到二维平面进行可视化分析。 根据 13 个特征对葡萄酒分类(推销给不同品味的人),利用 PCA ,可以将数据从 13 维降到 2 维进行可视化。 array([[1.369e+01, 3.260e+00, 2.540e+00, 2.000e+01, 1.070e+02, 1.830e+00, 5.600e-01, 5.000e-01, 8.000e-01, 5.880e+00, 9.600e-01, 1.820e+00, 6.800e+02], [1.269e+01, 1.530e+00, 2.260e+00, 2.070e+01, 8.000e+01, 1.380e+00, 1.460e+00, 5.800e-01, 1.620e+00, 3.050e+00, 9.600e-01, 2.060e+00, 4.950e+02], [1.162e+01, 1.990e+00, 2.280e+00, 1.800e+01, 9.800e+01, 3.020e+00, 2.260e+00, 1.700e-01, 1.350e+00, 3.250e+00, 1.160e+00, 2.960e+00, 3.450e+02]]) array([[ 0.87668336, 0.79842885, 0.64412971, 0.12974277, 0.48853231, -0.70326216, -1.42846826, 1.0724566 , -1.36820277, 0.35193216, 0.0290166 , -1.06412236, -0.2059076 ], [-0.36659076, -0.7581304 , -0.39779858, 0.33380024, -1.41302392, -1.44153145, -0.5029981 , 1.70109989, 0.02366802, -0.84114577, 0.0290166 , -0.73083231, -0.81704676], [-1.69689407, -0.34424759, -0.32337513, -0.45327855, -0.14531976, 1.24904997, 0.31964204, -1.52069698, -0.4346309 , -0.75682931, 0.90197362, 0.51900537, -1.31256499]]) array([0.36884109, 0.19318394, 0.10752862, 0.07421996, 0.06245904, 0.04909 , 0.04117287, 0.02495984, 0.02308855, 0.01864124, 0.01731766, 0.01252785, 0.00696933]) array([[-2.17884511, -1.07218467], [-1.80819239, 1.57822344], [ 1.09829474, 2.22124345]]) LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True, intercept_scaling=1, max_iter=100, multi_class="ovr", n_jobs=1, penalty="l2", random_state=0, solver="liblinear", tol=0.0001, verbose=0, warm_start=False) array([1, 3, 2, 1, 2]) array([[14, 0, 0], [ 1, 15, 0], [ 0, 0, 6]]) 准确率(精度)为 : 0.9722222222222222 参考: https://zh.wikipedia.org/wiki/主成分分析 《 斯坦福机器学习》 《机器学习 A-Z》
小菜G的建站之路2023-05-23 19:24:181

主成分分析-PCA

最近在 3d face 模型生成研究中,经常使用PCA,所以就把PCA的学习记录了下来。主成分分析(PCA, Principal Component Analysis)为我们提供了一种压缩数据的方式,我们也可以将它看作学习数据表示的无监督学习算法。PCA学习一种比原始维度更低的表示,也学习了一种元素之间没有线性相关的表示。我们知道一个经典的无监督学习任务就是找到数据的最佳表示。最佳表示可以是在比本身表示的信息更简单或者更易访问受到一些惩罚火或限制的情况下,尽可能多地保留原始数据的信息。那么PCA就为我们提供了这样一种方法。 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。 我们有样本X和样本Y,那么可以得到样本X的均值: 样本X方差: 由以上的基础公式我们可以得出以下的结论: 协方差为正时,说明X和Y是正相关关系;协方差为负时,说明X和Y是负相关关系;协方差为0时,说明X和Y是相互独立,互不相关。Cov(X,X)就是X的方差。当样本是n维数据时,它们的协方差实际上是协方差矩阵(对称方阵)。例如,对于3维数据(x,y,z),计算它的协方差就是: 其实协方差矩阵和散度矩阵关系密切,散度矩阵就是协方差矩阵乘以(总数据量-1)。因此它们的 特征值 和 特征向量 是一样的。这里值得注意的是,散度矩阵是 SVD奇异值分解 的一步,因此PCA和SVD是有很大联系 其中,λ是特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。 其中,Q是矩阵A的特征向量组成的矩阵,而矩阵Σ则是一个对角阵,对角线上的元素就是特征值。 假设A是一个m*n的矩阵,那么得到的U是一个 m*m 的方阵,U里面的正交向量被称为左奇异向量。Σ是一个 m*n 的矩阵,Σ除了对角线其它元素都为0,对角线上的元素称为奇异值。 Vt (t在右上角)是v的转置矩阵,是一个 n*n 的矩阵,它里面的正交向量被称为右奇异值向量。而且一般来讲,我们会将Σ上的值按从大到小的顺序排列。 降到k维 注:这里除或不除样本数量n或n-1,其实对求出的特征向量没有影响。 的特征值与特征向量。 注:为什么使用: 降到k维 ,当样本数多、样本特征数也多的时候,这个计算还是很大的。当我们用到SVD分解协方差矩阵的时候,SVD有两个好处: 对照就会发现,结果是不一样的。sklearn中的PCA是通过svd_flip函数实现的,sklearn对奇异值分解结果进行了一个处理,因为 ui * σi * vi=(-ui) * σi * (-vi) ,也就是u和v同时取反得到的结果是一样的,而这会导致通过PCA降维得到不一样的结果(虽然都是正确的)。具体了解可以自己分析一下sklearn中关于PCA的源码。 对于PCA可以做什么,对应于不同的业务,有不同的使用场景。 例如我最早接触时,用来分析2D人脸的图片矩阵化后里面的主要成分,提取出关键的维度,使用低维度的矩阵来表示人脸的特征。 当然对应于其他的数据,也是可以使用PCA的,例如在一个向量化好的用户信息矩阵中,需要提取出关键的维度来作为特征描写。所以他的使用场景就类似于他的名字,分析矩阵里面的主要成分,但是维度具体取多少,需要按照自己的数据来计算,也许需要多次的验证。
左迁2023-05-23 19:24:181

主成分分析的前提条件

主成分分析的前提条件是原始变量之间有一定的相关性 。主成分分析操作步骤1、为消除量纲的影响,先对数据进行标准化处理;2、计算相关系数:一般认为各变量之间的相关系数大于0.3较好;3、KMO检验和Barlett(巴特利)检验;(1)KMO取样适切性量数>=0.6较适宜(这里也是判断能不能用主成分分析的结果的重要指标。)并非所有的数据都适用于主成分分析的。主成分分析本身并不是目的, 实际应用中主成分分析往往是一种手段。目的是通过主成分分析简化数据结构, 在此基础上进行进一步的分析。因此, 使用主成分分析的前提条件是原始数据各个变量之间应有较强的线性相关关系。如果原始变量之间的线性相关程度很小, 它们之间不存在简化的数据结构, 这时进行主成分分析实际是没有意义的。所以, 应用主成分分析时, 首先要对其适用性进行统计检验。主成分分析检验方法有巴特莱特球性检验,KMO检验等,本文主要介绍KMO检验。
黑桃花2023-05-23 19:24:181

主成分分析法的优缺点

主成分分析(Principal Component Analysis,PCA)是一种常用的多元统计分析方法,其优缺点如下:优点:降维效果显著:PCA可以将原始数据集的维度降低,从而方便数据的可视化和处理。减少冗余信息:PCA可以从原始数据中提取出主要的特征,减少冗余信息的影响。去除噪声:PCA可以通过特征值分解的方法去除噪声,提高数据的准确性和可靠性。提高计算效率:PCA通过对协方差矩阵进行特征值分解,可以将大规模数据计算转化为少量特征向量的计算,从而提高计算效率。缺点:对异常值敏感:PCA对异常值比较敏感,可能会导致提取出的主成分偏离真实情况。对数据分布的假设:PCA假设数据符合高斯分布,如果数据分布与该假设不符,则可能导致分析结果不准确。解释性不足:PCA提取的主成分可能难以解释其含义,需要通过额外的分析和解释才能得出结论。受样本量和变量个数限制:PCA的应用需要考虑样本量和变量个数的限制,如果样本量不足或变量过多,可能会导致提取的主成分不具有代表性。
肖振2023-05-23 19:24:181

如何用spss软件进行主成分分析

主成分分析用于对数据信息进行浓缩,比如总共有20个指标值,是否可以将此20项浓缩成4个概括性指标。第一步:判断是否进行主成分(pca)分析;判断标准为KMO值大于0.6.第二步:主成分与分析项对应关系判断.第三步:在第二步删除掉不合理分析项后,并且确认主成分与分析项对应关系良好后,则可结合主成分与分析项对应关系,对主成分进行命名.spssau主成分分析操作共有三步:①选择【进阶方法】--【主成分分析】②将分析项拖拽到右侧分析框③点击开始分析请点击输入图片描述默认提供主成分得分和综合得分,分析前勾选“成分得分”、“综合得分”即可。
人类地板流精华2023-05-23 19:24:184

主成分分析有什么用?

主成分分析最主要的用途在于“降维”. 举个例子,你要做一项分析,选中了20个指标,你觉得都很重要,但是20个指标对于你的分析确实太过繁琐,这时候,你就可以采用主成分分析的方法进行降维. 20个指标之间会有这样那样的相互关系,相互之间会有影响,通过主成分分析后,得到4个或者5个主成分指标.此时,这几个主成分指标既涵盖了你20个指标中的绝大部分信息,又让你的分析得到了简化(从20维降到4、5维),简化了分析过程,增加了结果精度.
墨然殇2023-05-23 19:24:181

主成分分析法与因子分析法的区别?

主成分分析和因子分析都是信息浓缩的方法,即将多个分析项信息浓缩成几个概括性指标。因子分析在主成分基础上,多出一项旋转功能,该旋转目的即在于命名,更容易解释因子的含义。如果研究关注于指标与分析项的对应关系上,或是希望将得到的指标进行命名,SPSSAU建议使用因子分析。主成分分析目的在于信息浓缩(但不太关注主成分与分析项对应关系),权重计算,以及综合得分计算。如希望进行排名比较,计算综合竞争力,可使用主成分分析。SPSSAU可直接使用这两种方法,支持自动保存因子得分及综合得分,不需要手动计算。
u投在线2023-05-23 19:24:184

主成分分析和层次分析法的区别和联系

层次分析法:主成分分析和层次分析两者计算权重的不同,AHP层次分析法是一种定性和定量的计算权重的研究方法,采用两两比较的方法,建立矩阵,利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。主成分分析(1)方法原理及适用场景主成分分析是对数据进行浓缩,将多个指标浓缩成为几个彼此不相关的概括性指标(主成分),从而达到降维的目的。主成分分析可同时计算主成分权重及指标权重。(2)操作步骤使用SPSSAU【进阶方法-主成分分析】。如果计算主成分权重,需要用到方差解释率。具体加权处理方法为:方差解释率除累积方差解释率。比如本例中,5个指标共提取了2个主成分:主成分1的权重:45.135%/69.390%=65.05%主成分2的权重:24.254%/69.390%=34.95%如果是计算指标权重,可直接查看“线性组合系数及权重结果表格”,SPSSAU自动输出了各指标权重占比结果。其计算原理分为三步:第一:计算线性组合系数矩阵,公式为:loading矩阵/Sqrt(特征根),即载荷系数除以对应特征根的平方根;第二:计算综合得分系数,公式为:累积(线性组合系数*方差解释率)/累积方差解释率,即上一步中得到的线性组合系数分别与方差解释率相乘后累加,并且除以累积方差解释率;第三:计算权重,将综合得分系数进行归一化处理即得到各指标权重值。
黑桃花2023-05-23 19:24:182

spss主成分分析结果怎么看??急求

KMO检验用于检查变量间的偏相关性 一般认为该值大于0.9时效果最佳 0.7以上尚可,0.6时效果较差 Bartlett"s球形检验用于检验相关阵是否是单位阵 P<0.01说明指标间并非独立,取值是有关系的。可以进行因子分析根据上图 可以看出一共提取了3个主成分 可是能解释的方差为69.958% 软件默认的是提取特征根大于1的主成分 如果加上第四个主成分的话可以解释的变异度为86.26%所以结合专业知识 可以考虑是不是增加一个主成分。
kikcik2023-05-23 19:24:184

如何用主成分分析法确定指标权重?

在SPSS中,主成分分析是通过设置因子分析中的抽取方法实现的,如果设置的抽取方法是主成分,那么计算的就是主成分得分,另外,因子分析和主成分分析尽管原理不同,但是两者综合得分的计算方法是一致的。层次分析法根据问题的性质和要达到的总目标,将问题分解为不同的组成因素,并按照因素间的相互关联影响以及隶属关系将因素按不同层次聚集组合,形成一个多层次的分析结构模型,从而最终使问题归结为最低层(供决策的方案、措施等)相对于最高层(总目标)的相对重要权值的确定或相对优劣次序的排定。扩展资料:主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。参考资料来源:百度百科-主成分分析法
黑桃花2023-05-23 19:24:181

PCA主成分分析原理

在多点地质统计学中,数据样板构成了一个空间结构,不同方向节点就是一个变量。一个数据事件就是由众多变量值构成的整体。在进行数据事件相似性计算与比较时,需要逐点计算其差异;在进行聚类时亦要对所有数据事件进行比较,导致计算效率非常低下。因此很有必要挖掘数据事件内部结构,将其变量进行组合,求取特征值,并用少量特征值完成数据事件的聚类,有效提高储层建模效率。因此,PCA主成分分析被引入到多点地质统计学中。主成分分析(Pirncipal Component Analysis,PCA)是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。PCA的目标是寻找r(r<n)个新变量,使它们反映事物的主要特征,压缩原有数据矩阵的规模。每个新变量是原有变量的线性组合,体现原有变量的综合效果,具有一定的实际含义。这r个新变量称为“主成分”,它们可以在很大程度上反映原来n个变量的影响,并且这些新变量是互不相关的,也是正交的。通过主成分分析,压缩数据空间,将多元数据的特征在低维空间里直观地表示出来。假设x=[x1,x2,…,xp]′是一个p维的随机向量,它遵从正态分布x~N(u,σ2)。导出主成分的问题就是寻找x的线性函数a′x,并使a′x的相应的方差最大。多点地质统计学原理、方法及应用因此,在代数上就是寻找一个正交矩阵a,使a′a=1,并使方差:多点地质统计学原理、方法及应用设矩阵A的特征值为λ1≥λ2≥…≥λp≥0对应λi的特征向量记为ui,令Up×p=多点地质统计学原理、方法及应用则U是正交矩阵,即UU′=I,由于A是实对称矩阵,所以有多点地质统计学原理、方法及应用故多点地质统计学原理、方法及应用当a=u1时,多点地质统计学原理、方法及应用因此,当a=u1时,就满足了方差最大的要求,等于相应的特征值λ1。同理,可推广到一般:多点地质统计学原理、方法及应用并且协方差为多点地质统计学原理、方法及应用这就是说,综合变量的系数aj是协方差矩阵A的特征值λj对应的特征向量ju,综合变量Fj的重要性等同于特征值λj,这样,就可以用少数几个变量来描述综合变量的性质。
u投在线2023-05-23 19:24:181

主成分分析(PCA)

主成分分析(PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由现行相关变量表示的观测数据转化为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以主成分分析属于姜维方法。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理。 统计分析比中,数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数几个不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的不部分信息。 主成分分析中,首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1,。之后对数据进行正交变换,用来由线性相关表示的数据,通过正交变换变成若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和(信息保存)最大的,方差表示在新变量上信息的大小。将新变量一次成为第一主成分,第二主成分等。通过主成分分析,可以利用主成分近似地表示原始数据,这可理解为发现数据的“基本结构”;也可以把数据由少数主成分表示,这可理解为对数据降维。 方差最大的解释。假设有两个变量 ,三个样本点A,B,C。样本分布在由 轴组成的坐标系中,对坐标系进行旋转变换,得到新的坐标轴 ,表示新的变量 。坐标值的平方和 表示样本在变量 上的方差和。主成分分析旨在选取正交变换中方差最大的变量,作为第一主成分,也是是旋转变换中坐标值的平方和最大的轴。注意到旋转变换中变换中样本点到原点距离的平方和 不变,根据勾股定理,坐标值的平方和最大 等价于样本点到 轴的距离平方和 最小。所以,等价地,主成分分析在旋转变换中选取离样本点的距离的平方和最小的轴,作为第一主成分。第二主成分等的选取,在保证与已有坐标轴正交的条件下,类似地进行 假设 是m维随机变量,其均值是 , 协方差矩阵是 考虑到m维随机变量 到m维随机变量 的线性变换 其中 由随机变量的性质可知 总体主成分的定义 给定式(1)所示的线性变换,如果他们满足下列条件 设 是m维随机变量, 是 的协方差矩阵, 的特征值分别是 ,特征值对应的单位特征向量分别是 ,则 的第k主成分是 的第k主成分的方差是 即协方差矩阵 的第k个特征值 首先求 的第一主成分 ,即求系数向量 。第一主成分的 是在 的条件下, 的所有线性变换中使方差达到最大的 求第一主成分就是求解最优化问题 定义拉格朗日函数 其中 是拉格朗日乘子,将拉格朗日函数对 求导,并令其为0,得 因此 是 的特征值, 是对应的单位特征向量。于是目标函数 假设 是 的最大特征值 对应的单位特征向量,显然 与 是最优化问题的解,所以, 构成第一主成分,其方差等于协方差矩阵的最大特征值 接着求 的第二主成分 ,第二主成分的 是在 且 与 不相关条件下, 的所有线性变换中使达到最大 求第二主成分需参求解约束最优化问题 定义拉格朗日函数 其中 对应拉格朗日乘子。对 求偏导,并令其为0,得 将方程左则乘以 有 此式前两项为0,且 ,导出 ,因此式成为 由此, 是 的特征值, 是对应的特征向量,于是目标函数为 假设 是 的第二大特征值 的特征向量,显然 是以上最优化问题的解。于是 构成第二主成分,其方差等于协方差矩阵的第二大特征值, 按照上述方法可以求得第一、第二、直到第m个主成分,其系数向量 分别是 的第一、第二、直到m个单位特征向量, 分别是对应的特征值。并且,第k主成分的方差等于 的第k个特征值。 主成分分析的主要目的是降维,所以一般选择 个主成分(线性无观变量),使问题得以简化,并能保留原有变量的大部分信息。这里所说的信息是指原有信息的方差。 对任意正整数 ,考虑正交线性变换 其中 是q的维向量, 是q*m维矩阵,令 的协方差矩阵为 则 的迹 在 时取最大值,其中矩阵 是由正交矩阵A的前q列组成。 这表明,当 的线性变换 在 时,其协方差矩阵 的迹 取得最大值。也就是说,当A取前 的前q个主成分时,能够最大限度地保留原有变量方差的信息。 以上作为选择k个主成分的理论依据。具体选择k的方法,通常利用方差贡献率。 第k主成分 的方差贡献率定义为 的方差与所有方差之和的比记作 k个主成分 的累计方差贡献率定义为k个方差之和和所有方差之和的比 通常取k使得累计方差贡献率达到规定的百分比以上,例如70%~80%。累计方差贡献率反映了主成分保留信息的比例,但它不能反映对某个原有变量 保留信息的比例,这时通常利用k个主成分 对原有变量 的贡献率。 k个主成分 对原有变量 的贡献率为 , 的相关系数的平方,记作 计算公式如下: 其中, 是随机变量 的方差,即协方差矩阵 的对角元素。 在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果,为了消除这个影响,常常对各个随机变量实施规范化,使其均值为0,方差为1 设 为随机变量, 为第i个随机变量, ,令 其中, 分布是随机变量 的均值和方差,这时 就是 的规范化随机变量。 在实际问题中,需要在观测数据上进行主成分分析,这就是样本主成分分析。样本主成分也和总体主成分具体相同的性质。 使用样本主成分时,一般假设样本数据是规范化的,即对样本矩阵如下操作: 其中 样本协方差矩阵S是中体协方差矩阵 的无偏估计,样本相关矩阵R是总体相关矩阵的无偏估计,S的特征值和特征向量 的特征值和特征向量的无偏估计。 传统的主成分分析通过数据的协方差矩阵或相关矩阵的特征值分解进行,现在常用的方法是通过数据矩阵的奇异值分解进行。下面介绍数据的协方差矩阵或相关矩阵的分解方法 给定样本矩阵 ,利用数据的样本的协方差矩阵或样本相关矩阵的特征值分解进行主成分分析 给定样本矩阵 ,利用数据矩阵奇异值分解进行主成分分析,这里没有假设k个主成分 对于 维实矩阵A,假设其秩为r, ,则可将矩阵A进行截断奇异值分解 式 是 矩阵, 是k阶对角矩阵, 分别由取A的完全奇异分解的矩阵U,V的前k列, 由完全奇异分解的矩阵 的前k个对角元素得到 定义一个新的 矩阵 的每一列均值为0, 即 等于X的协方差矩阵 主成分分析归结于求协方差矩阵 的特征值和对应的单位特征向量。 假设 的截断奇异值分解为 ,那么V 的列向量就是 的单位向量,因此V的列向量就是X的主成分。于是X求X的主成分可以通过 的奇异值来实现
CarieVinne 2023-05-23 19:24:101

主成分分析(PCA)

    本文记录的目的是方便自己学习和复习,有误之处请谅解,欢迎指出。     主成分分析(Principal Component Analysis,PCA)是中最常用的降维算法之一,也可以用于数据压缩、去除冗余信息、消除噪声等方面。PCA的目的是找出一组低维数据来代表原高维数据,且保留原始数据中的主要信息。例如有m个数据集,n维特征,我们希望将n维特征降低到d维,而且让损失的信息尽可能小,具体怎么做呢?     首先通过PCA找出第1个新坐标使得原始数据中方差最大;然后找出第2个新坐标与第1个坐标正交平面使得方差最大;再找出第3个坐标与1,2坐标正交平面使得方差最大...,以此类推,得到d个新维度特征。     直接一点:就是求出样本集的协方差矩阵 的前d个特征值对应的特征向量,组成矩阵 ,然后对每个样本 进行变换 。     1)特征去中心化,即每个维度特征减去其均值:     2)计算协方差矩阵     3) 对协方差矩阵进行特征值分解     4)取前d个最大的特征值对应的特征向量组成矩阵 。     5)对每个样本数据进行变换,     6)得到降维后的数据     假定现有10个二维数据集 (2.5,2.4), (0.5,0.7), (2.2,2.9), (1.9,2.2), (3.1,3.0), (2.3, 2.7), (2, 1.6), (1, 1.1), (1.5, 1.6), (1.1, 0.9) ,需要用PCA降到1维。     首先样本去中心化,这里样本的均值为 (1.81, 1.91) ,所有的样本减去这个 均值 向量后,即中心化后的数据集为 (0.69, 0.49), (-1.31, -1.21), (0.39, 0.99), (0.09, 0.29), (1.29, 1.09), (0.49, 0.79), (0.19, -0.31), (-0.81, -0.81), (-0.31, -0.31), (-0.71, -1.01) 。     求协方差矩阵:     求出特征值为 (0.0490833989, 1.28402771) ,对应的特征向量分别为: 由于最大的k=1个特征值为1.28402771,对应的特征向量为 。这也就是特征矩阵 。     对每个数据样本进转换 得到降维后的数据 (-0.827970186, 1.77758033, -0.992197494, -0.274210416, -1.67580142, -0.912949103, 0.0991094375, 1.14457216, 0.438046137, 1.22382056)
CarieVinne 2023-05-23 19:24:101

主成分分析法(PCA)(含SVD奇异值分解)等降维(dimensionality reduction)算法-sklearn

亲们早安、午安、晚安,上一篇 主成分分析法(PCA)等降维(dimensionality reduction)算法-Python 主要是了解了PCA的原理和基于Python的基本算法实现,本文主要是学习scikit-learn (sklearn)中关于降维(dimensionality reduction)的一些模型,侧重于PCA在sklearn中的实现。 在sklearn中的 Dimensionality Reduction 中,包含的降低特征维度的方法包括主成分分析法 PCA (这里面又包括不同类型的PCA方法,一般的 PCA , KernelPCA , SparsePCA , TruncatedSVD , IncrementalPCA )、因子分析法 FA (factor analysis)、独立成分分析 ICA 等 这个方法主要是利用上一篇 主成分分析法(PCA)等降维(dimensionality reduction)算法-Python 中的方法,基于奇异值分解(Singular Value Decomposition)来线性降维到低维度的空间。 啥?怎么跑出来个奇异值分解SVD?这是线性代数里的名词,关于线性代数的知识,推荐查看 网易公开课里的麻省理工线性代数课程 ,里面有关于SVD的详细计算。当然,如果想知道SVD的几何意义,我觉得 We Recommend a Singular Value Decomposition 非常好,图文并茂,极力推荐,由此也进一步理解了主成分分析PCA。 首先考虑对角矩阵如M,如果M与一个向量(x,y)相乘如图1,表示将(x,y)进行长度的变化如图2: 根据图2的变化可知,对角矩阵M的作用是将水平垂直网格作水平拉伸(或者反射后水平拉伸)的线性变化。 如果M是图3中的对称矩阵,那么它和向量(x,y)相乘后,也可以找到一组网格线(如图4) 看着图4有点蒙圈,貌似不是简单的线性变化,辣么,先把图4中左边图旋转45度,然后再乘以M,然后得到下面的情况: 图5表明,先旋转45度,然后再和M相乘,此时又可以只进行简单的拉伸变化。 对比图4-5,当原始矩阵乘以对称矩阵时,不一定还是进行线性变化(只在一个方向进行伸缩变化),除非这个映射时,两边的正交网络是一致的。 再比如更加一般的非对称非对角矩阵M(如图6): 观察图7,对于任意一个向量,当一个一般矩阵M作用在其上面时,很难只是做线性变化。但是,我们可以如图7最下面一行的变化,找一组网格,找两个正交向量来表示向量。对角矩阵Σ对角线上的取值σ_1,σ_2就是矩阵M的奇异值。 综上所述:奇异值分解SVD几何意义:对于任何的一个矩阵,我们要找到一组两两正交单位向量序列,是的矩阵作用在此向量序列后得到新的向量序列保持两两正交。奇异值的几何意义:这组变化后的新的向量序列的长度。从图10中看到,奇异值分解和特征值求解很相似,但是特征值必须是方阵才存在,但任何矩阵都可以进行奇异值分解。 好啦,奇异值分解SVD差不多搞清楚了,为啥要进行奇异值分解,其实它表现的就像PCA的意义那样,用这些关键较少数量的奇异值(奇异向量)来表示原来可能比较庞大的东东,因此,在图像压缩等方向应用的比较多。如下: 比如,图11是一个15*25的图片,其像素组成是图12中的M矩阵 结果计算发现,图12中M的非零奇异值只有三个:σ1= 14.72;σ2= 5.22;σ3= 3.31 那么,根据上面奇异值几何意义,其实图11中的图片是可以用这三个奇异值向量来表示的: M = u 1σ1 v 1^T+ u 2σ2 v 2^T+ u 3σ3 v 3^T,,这一将原来可能要对375个像素点的计算变为123个像素点的计算。还有个问题需要强调,可能实际图片不像图11中那样纯粹,可能存在噪声,如图13(图中出现的那些灰色的地方表示噪声) 图13中像素矩阵得到的奇异值为:σ1= 14.15;σ2= 4.67;σ3= 3.00;σ4= 0.21;σ5= 0.19... σ15= 0.05等,但是看到还是前三个特征值比较大,因此,继续用σ1,σ2,σ3表示该图片,其他的奇异值舍去,最终得到新的图片见图14,显然图14中噪声变少了。 关于SVD的这个奇异的理解(同时包含PCA于SVD的联系),下面 知乎大牛的解释 可能更清楚点: (2) 简单PCA模型 class sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver="auto", tol=0.0, iterated_power="auto", random_state=None)n_components ->表示最终要保留的主成分特征数,如果不设置,则保留全部特征whiten ->是否进行白化,默认为false。啥是白化?因为我们在PCA中,保留主要的特征来计算决策,因此难免有误差,为了降低误差,通过白化来降低特征值之间的相关性,使其协方差矩阵变为对角矩阵。具体,来自 知乎大牛关于PCA白化的解释 很详细,请参考下图17: 在PCA中,原始数据如图17最左边的红色图表示;然后用原始矩阵减去均值,然后求解协方差矩阵,将数据依据协方差矩阵方差最大的轴进行旋转,得到图17中部绿色显示内容;然后进行白化whiten,就是白化操作的输入是特征基准上的数据,然后对每个维度除以其特征值来对数值范围进行归一化。如果数据服从多变量的高斯分布,那么经过白化后,数据的分布将会是一个均值为零,且协方差相等的矩阵(及单位协方差矩阵),如图17中最右边蓝色图示。 svd_solver ->指定奇异值分解SVD的方法,由于特征分解是奇异值分解SVD的一个特例,一般的PCA库都是基于SVD实现的。有4个可以选择的值:{‘auto", ‘full", ‘arpack", ‘randomized"}。randomized一般适用于数据量大(数据量超过500*500),数据维度多同时主成分比例又较低(低于80%)的PCA降维,它使用了一些加快SVD的随机算法。 full则是传统意义上的SVD,使用了scipy库对应的实现。arpack和randomized的适用场景类似,区别是randomized使用的是scikit-learn自己的SVD实现,而arpack直接使用了scipy库的sparse SVD实现。默认是auto,即PCA类会自己去在前面讲到的三种算法里面去权衡,选择一个合适的SVD算法来降维。一般来说,使用默认值就够了。 举栗子1: 篇幅有限(其实是能力+精力有限,捂脸),sklearn中的PCA模型先介绍到这里,以后再深入研究。希望内容对大家有所帮助,也希望大牛不吝赐教。
黑桃花2023-05-22 22:49:441
 首页 上一页  1 2