SPSS进行判别分析的步骤、结果解释
载入数据: 分析操作步骤: Fisher(F):给出的是Bayes线性判别函数的系数 未标准化(U):给出未标准化的典型判别系数,即费希尔投影函数。 先验概率选相等给出的结果是距离判别的结果,根据组样本大小计算用于贝叶斯判别。 输出是贝叶斯判别选项 这里可以修改各组的假定概率,点击运行即可保存。 预测组成员(Predicted group membership):存放判别样品所属类别的值; 判别得分(Discriminant scores):存放Fisher判别函数值(投影函数)的值,有几个典型判别函数就有几个判别函数值变 组成员概率(Probabilities of group membership):存放样品属于各类的Bayes后验概率值,总体分为几类就生成几个后验概率变量。 例5.4.1鸢尾花 案例的 结果 分析 : 案例处理汇总分析,反映有效样本和变量的缺失情况,鸢尾花这个例子没有缺失变量。 给出组别1、组别2、组别3以及组别1、2、3共同的均值、标准差差和变量个数,这个用于费希尔判别,可见第五版课本P138。组内协方差就是当组一、组三和组二协方差相等时方差的联合无偏估计,对比下第五版课本P117的方差的联合无偏估计和第五版课本P135的公式,可得方差的联合无偏估计*(三组变量总个数-组数)=组内平方和及叉积和矩阵(E),用于费希尔判别,可见第五版课本P138。 因为总体协方差*相应的自由度=总平方和,组间平方和=总平方和-组内平方和,所以总的协方差矩阵*相应的自由度-方差的联合无偏估计*(三组变量总个数-组数)=组间平方和及叉和矩阵(H),用于费希尔判别,可见第五版课本P138。Box"s M统计量检验各组内协方差阵相等的假设。原假设为:H0:Σ1=Σ2=Σ3=Σ 概率值小于0.05,故在0.05的显著性水平下各总体协方差阵不相等,即组一、组二和组三协方差不相等。因此在分类选项中的协方差矩阵选择可以考虑采用分组协方差。由于只有三个组,所以只有两个判别函数。反映判别函数的特征根(第一个特征根为32.192、第二个特征根为0.285,可见第五版课本P138)、解释方差的比例和典型相关系数(组间平方和与总平方和之比的平方根,表示判别函数与组别间的关系程度)。第一个判别函数解释了99.1%的方差,第二判别函数解释了0.9%的方差,两个判别函数解释了全部方差。 Fisher判别函数有效性检验结果。该检验的原假设是不同组的平均Fisher判别函数值不存在显著差异。从表中给出的p值来看,P=0.00<0.05,说明在0.05的显著性水平下有理由拒绝原假设。1到 2 表示没有函数被移去,拒绝原假设,表明两个判别函数能将各组样品分开,2的表示排除了第一个判别函数后的显著性检验,拒绝原假设,第二个判别函数也能将各组样品分开。 标准化判别函数系数可以看出预测变量在组成判别函数时的相对贡献,如本例,第一判别函数的花瓣长比较重要,第二判别函数在花萼宽比较重要。标准判别函数系数的计算是由非标准化判别函数系数乘以联合组内协方差矩阵主对角的平方根得来。 结构系数即预测变量与典型判别函数的联合组内相关系数,由联合组内相关系数矩阵*标准化判别函数系数矩阵计算得到。 非标准化判别函数系数,即费歇尔判别函数系数。是由上面的特征根所对应的特征向量(标准化特征向量)而得来的。可见第五版课本P138。 中心化的费希尔判别函数(Fisher投影函数) ,表示为 y1=-0.083*花萼长-0.153*花萼宽+0.220*花瓣长+0.281*花瓣宽-2.105 y2=0.002*花萼长+0.216*花萼宽-0.093*花瓣长+0.284*花瓣宽-6.661 反映判别函数在各组的重心,即判别函数的组均值,由非标准化判别函数系数矩阵*(各组平均值-总平均值)得到,可见第五版课本P138。 将样本中150个样品的判别函数得分作一散点图,如下所示: 判别: 本例使用了所有判别函数且概率相等,所以费希尔判别等价于距离判别等价于各先验概率均相等时的贝叶斯判别。 分类函数处理汇总。已处理150个观测量,没有缺失值。 因为之前选择的是先验概率所有组相等,所以组一与组二的概率都为0.333,这个用于贝叶斯判别。 这里的Fisher 的线性判别式函数系数为贝叶斯的线性判别函数系数,这是用贝叶斯判别分析法产生的分类函数系数,可见课本第五版课本P121的5.2.17式,可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。 给出了判别结果,通过判别函数的预测,有147个观测是正确的,其中,y=1组50个观测全部被判对,y=2组50个观测中有48个观测被判对,y=3组50个观测中有49个观测被判对,从而有98%的原始观测被判对。(可见第五版课本P141) 例5.2.3破产和 非破产公司的案例结果分析 : 案例处理汇总分析,反映有效样本和变量的缺失情况。这里排除了一个变量,因为破产组与非破产组中第47个数据是待判数据,所以只能选用前46个变量进行分析。给出组别1、组别2以及组别1、2共同的均值、方差和变量个数,这个用于距离判别,可见第五版课本P123。 组内协方差就是当组一协方差与组二协方差相等时方差的联合无偏估计,用于距离判别,可见第五版课本P123。 组别1、组别2的协方差,用于计算组内协方差和当组一协方差与组二协方差不相等时的距离判别,可见第五版课本P123。Box"s M统计量检验各组内协方差阵相等的假设。原假设为:H0:Σ1=Σ2 =Σ 概率值小于0.05,在0.05的显著性水平下各总体协方差阵不相等,即组一协方差与组二协方差不相等。因此在分类选项中的协方差矩阵选择可以考虑采用分组协方差。 判别: 本例假定概率相等,所以距离判别等价于各先验概率均相等时的贝叶斯判别。分类函数处理汇总,已处理47个观测量,没有缺失值。因为之前选择的是先验概率所有组相等,所以组一与组二的概率都为0.5,这个用于贝叶斯判别。这里的Fisher 的线性判别式函数系数为贝叶斯的线性判别函数系数(可见课本第五版课本P123),这是用贝叶斯判别分析法产生的分类函数系数,可见课本第五版课本P121的5.2.17式,可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。 给出了判别结果,通过判别函数的预测,有41个观测是正确的,其中,y=1组21个观测有18个被判对,y=2组25个观测中有24个观测被判对,从而有96%的原始观测被判对。在交叉验证中,其中,y=1组21个观测有18个被判对,y=2组25个观测中有23个观测被判对,从而有92%的原始观测被判对。 spss几点说明: 1、spss只有Bayes判别和Fisher判别的直接选项,没有距离判别的直接选项,只在个案结果(Casewise Statistics)中给出了一个结果。 2、spss中Bayes判别和Fisher判别的操作没有分开进行 3、spss中给出的判别表达式(投影函数)都是针对协方差阵相等的情形给出的,对于协方差阵不相等的情况要手动计算 4、spss判别以Bayes判别为主,主要菜单与选项都是针对Bayes判别分析设置,并且最终保存的判别结果也是以Bayes判别为依据;Fisher判别操作仅给出投影表达式、各类投影中心坐标或投影分解图去做判别,并没有提供费歇尔法的计算机处理程序。 5.当协方差不等时,除了做不出交叉验证的结果和出现典型判别式函数的组协方差及相等性检验外,其他结果几乎不变;当概率不同,协方差相等时,交叉验证的结果不同。陶小凡2023-05-26 08:18:051
判别分析的简介
判别分析,是一种统计判别和分组技术,就一定数量样本的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量信息所属的样本进行判别分组。解决问题:已知某种事物有几种类型,现在从各种类型中各取一个样本,由这些样本设计出一套标准,使得从这种事物中任取一个样本,可以按这套标准判别它的类型。mlhxueli 2023-05-26 08:18:051
聚类分析与判别分析有什么区别与联系?
聚类分析与判别分析的区别与联系 都是研究分类的,在进行聚类分析前,对总体到底有几种类型不知道(研究分几类较为合适需从计算中加以调整)。判别分析则是在总体类型划分已知,对当前新样本判断它们属于哪个总体。如我们对研究的多元数据的特征不熟悉,当然要进行聚类分析,才能考虑判别分析问题。聚类分析分两种:Q型聚类(对样本的聚类),P型聚类(对变量的聚类) 聚类分析需要注意的是,一般小样本数据可以用系统聚类法,大样本数据一般用快速聚类法(K均值聚类法)。需要根据统计量判断分几类比较合适,一般用R平方统计、伪F统计量等。如用前者时,可以从R平方的变换看n个样品分成几类比较合适,如分为5类时,R平方为0.9,当分为四类时,其值减小较快,如R平方为0.4,则认为分五类比较合适。另外,不同的分类方法产生的分类结果可能不同,要结合实际情况选出最优的分类方法。判别分析 有Fisher判别,Bayes判别和逐步判别。一般用Fisher判别即可,要考虑概率及误判损失最小的用Bayes判别,但变量较多时,一般先进行逐步判别筛选出有统计意义的变量,再结合实际情况选择用哪种判别方法。苏萦2023-05-26 08:18:041
逻辑回归和判别分析的区别
逻辑回归和判别分析的区别:和逻辑回归相比: (1)判别分析可以用于多分类情况; (2)线性判别分析比逻辑回归更稳定; (3)利用贝叶斯定理计算后验概率,当条件概率分布是正态分布,和逻辑回归很相似。苏萦2023-05-23 19:24:143
潜在狄利克雷分配和线性判别分析是不是同一个?
不是同一个东西。 第一个是用于自然语言分析的隐主题模型。LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从Dirichlet分布,主题到词服从多项式分布。 第二个线性判别式分析(Linear Discriminant Analysis),简称为LDA。也称为Fisher线性判别(Fisher Linear Discriminant,FLD),是模式识别的经典算法,在1996年由Belhumeur引入模式识别和人工智能领域。基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。bikbok2023-05-23 12:57:391
Latent Dirichlet Allocation(潜在狄利克雷分配)和Linear Discriminant Analysis(线性判别分析)
不是同一个东西。 第一个是用于自然语言分析的隐主题模型。LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从Dirichlet分布,主题到词服从多项式分布。 第二个线性判别式分析(Linear Discriminant Analysis),简称为LDA。也称为Fisher线性判别(Fisher Linear Discriminant,FLD),是模式识别的经典算法,在1996年由Belhumeur引入模式识别和人工智能领域。基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。水元素sl2023-05-23 12:57:391
潜在狄利克雷分配和线性判别分析是不是同一个?
不是同一个东西。x0dx0a 第一个是用于自然语言分析的隐主题模型。LDA是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从Dirichlet分布,主题到词服从多项式分布。x0dx0a 第二个线性判别式分析(Linear Discriminant Analysis),简称为LDA。也称为Fisher线性判别(Fisher Linear Discriminant,FLD),是模式识别的经典算法,在1996年由Belhumeur引入模式识别和人工智能领域。x0dx0a基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。hi投2023-05-23 12:57:381
判别分析
化探工作中常要判断地质体的属性,如是矿致异常还是非矿致异常;是含矿岩体还是不含矿岩体;是含矿铁帽还是不含矿铁帽,等等。而区分它们只考虑一个变量,数据的重叠往往很难区分。用判别分析的方法建立起一个多变量的函数(判别函数),使两类地质体得到最大的分离,对于未知属性的地质体也算出这个函数值从而判断其归属。化探中常用的是两类线性判别分析,其具体做法如下。1.求判别函数(1)首先将已知的A地质体(如矿致异常)和B地质体(如非矿致异常)中各变量(如元素含量)换为对数值(因为化探中的微量元素多为对数正态分布)。(2)建立求判别函数系数的线性方程组。判别函数的一般表达式为:地球化学找矿式中:R为判别函数;λK为判别系数(K=1,2,…,P);P为变量数;xK为判别变量。根据数学推导,判别系数λK应满足下列线性方程组:地球化学找矿为简化计算,可将dK前(NA+NB-2)系数取为1。则有地球化学找矿地球化学找矿式中:地球化学找矿地球化学找矿NA与NB分别为A母体与B母体的样品数。根据A,B两类地质体的各变量(对数值)代入上述公式即可求得σKK,σKL,dK各项值。于是线性方程组(6-6)或(6-7)即可得到。用适当方法求出线性方程组的解,即可求得判别系数λK(K=1,2,…,P),判别系数λK求得后代入(6-6)式,则判别函数R即已求得。注意判别系数λK有正有负。2.判别效果的显著性检验建立的判别函数判别是否有效主要看不同地质体中变量平均值的差异是否显著,即(K=1,2,…,P)是否足够大。通常采用马氏距离D2统计量作F检验。首先计算出D2和F值:地球化学找矿地球化学找矿注意:若线性方程组(6-6)中dK前系数为(NA+NB-2)则:地球化学找矿然后给定信度α=0.1,α=0.05,α=0.01查F分布表得出 的临界值,若计算出 (临界值),则说明在某信度下差异显著,判别有效;若小于某一信度的临界值,则说明在该信度下差异不显著。若 比 还小,则说明A,B无显著差异,为同一地质体,因而判别无效;或者说明所选择的这些变量没有判别效果,应另选其他变量。3.计算各变量的贡献值判别有效时还应考虑各变量参加判别的贡献。变量的贡献值可以衡量一个变量对组成判别函数的作用大小。第K个变量的贡献值按下式计算:地球化学找矿对于贡献值很小的可舍去,用其余变量进行判别可得同样效果。4.对未知属性样品进行判别当判别函数判别有效时,则可对未知属性样品进行判别。(1)计算判别函数临界值(R0)地球化学找矿若NA=NB,则地球化学找矿式中: 。 R0算出后应比较三者的大小。若 ,则大于R0者属A类,小于R0者属B类;若R(A)<R0<R(B),则大于R0者属B类,小于R0者属A类。(2)与R0进行比较将未知属性样品的诸变量值(对数值)代入判别函数,即可求得各未知属性样品的判别函数值,与R0比较则可判断其归属。(3)计算实例某区发现原生地球化学异常15个,其中7个为矿致异常,7个为非矿致异常,一个异常性质不明。每个异常分析了Cu,Ag,Bi3个元素,数据见表6-2。未知属性异常含量(10-6)Cu 880,Ag 1.41,Bi 34.4,换算成对数值(Ag乘以100后换算成对数)分别为2.945,2.147,1.537。现运用判别分析的方法对未知属性异常判断其归属。表6-2 某区Cu,Ag,Bi 元素含量及对数值1)求判别函数①根据矿致异常(A),非矿致异常(B)中各变量的对数值计算(表6-2)表中所列各项值(表6-3)。②建立求判别函数系数的线性方程组,对于只有三个判别变量时,判别函数:R =λ1x1+ λ2x2+ λ3x3 (6-12)求判别系数λK(K=1,2,3)的线性方程组为:地球化学找矿式中:地球化学找矿地球化学找矿表6-3 由表6-2导出的各参数值于是(6-13)式变为:地球化学找矿对于上述方程组可用行列式求解:令地球化学找矿地球化学找矿则地球化学找矿将λ1,λ2,λ3的值代入(6-12)式,则得地球化学找矿上式即为所求的判别函数。2)判别效果的显著性检验计算D2值和 的值:地球化学找矿由 ,查临界值表:地球化学找矿于是得 ,其他均小于是临界值故指在α=0.10的差异显著,判别有效。3)计算各变量的贡献值由地球化学找矿于是得地球化学找矿地球化学找矿可见Ag的贡献很小,可舍去,只用作变量建立判别函数,可得同样效果。4)对未知属性的样品进行判别①计算判别临界值:因NA=NB,故地球化学找矿所以 。由上计算结果得:R(A)>R0>R(B)故大于R0者属矿致异常;小于R0者属非矿致异常。②计算未知属性异常的判别函数值:将未知属性异常(C),Cu,Ag,Bi的对数含量值代入判别函数得:R(C)=0.2898×2.945-0.0646×2.147-0.4612×1.537=0.006因为R(C)=0.006<R0=0.1982,故未知属性异常属非矿致异常。Jm-R2023-05-19 11:01:391
判别分析的判别方法
判别方法是确定待判样品归属于哪一组的方法,可分为参数法和非参数法,也可以根据资料的性质分为定性资料的判别分析和定量资料的判别分析。此处给出的分类主要是根据采用的判别准则分出几种常用方法。除最大似然法外,其余几种均适用于连续性资料。1)最大似然法:用于自变量均为分类变量的情况,该方法建立在独立事件概率乘法定理的基础上,根据训练样品信息求得自变量各种组合情况下样品被封为任何一类的概率。当新样品进入是,则计算它被分到每一类中去的条件概率(似然值),概率最大的那一类就是最终评定的归类。2)距离判别:其基本思想是有训练样品得出每个分类的重心坐标,然后对新样品求出它们离各个类别重心的距离远近,从而归入离得最近的类。也就是根据个案离母体远近进行判别。最常用的距离是马氏距离,偶尔也采用欧式距离。距离判别的特点是直观、简单,适合于对自变量均为连续变量的情况下进行分类,且它对变量的分布类型无严格要求,特别是并不严格要求总体协方差阵相等。3)Fisher判别:亦称典则判别,是根据线性Fisher函数值进行判别,通常用于梁祝判别问题,使用此准则要求各组变量的均值有显著性差异。该方法的基本思想是投影,即将原来在R维空间的自变量组合投影到维度较低的D维空间去,然后在D维空间中再进行分类。投影的原则是使得每一类的差异尽可能小,而不同类间投影的离差尽可能大。Fisher判别的优势在于对分布、方差等都没有任何限制,应用范围比较广。另外,用该判别方法建立的判别方差可以直接用手工计算的方法进行新样品的判别,这在许多时候是非常方便的。4)Bayes判别:许多时候用户对各类别的比例分布情况有一定的先验信息,也就是用样本所属分类的先验概率进行分析。比如客户对投递广告的反应绝大多数都是无回音,如果进行判别,自然也应当是无回音的居多。此时,Bayes判别恰好适用。Bayes判别就是根据总体的先验概率,使误判的平均损失达到最小而进行的判别。其最大优势是可以用于多组判别问题。但是适用此方法必须满足三个假设条件,即各种变量必须服从多元正态分布、各组协方差矩阵必须相等、各组变量均值均有显著性差异。黑桃花2023-05-19 11:01:391
判别分析方法
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这类问题属于判别分析问题。北营2023-05-19 11:01:391
判别分析对判别变量的3个基本要求怎么检验
判别分析适用于被解释变量是非度量变量的情形。在这种情况下,人们对于预测和解释影响,GoatGui关注《多元统计分析》学习笔记之判别分析 原创2020-03-13 11:02:36 4点赞GoatGui 码龄6年关注鄙人学习笔记文章目录判别分析判别分析的基本思想距离判别两总体情况多总体情况贝叶斯判别费歇判别逐步判别判别分析本章介绍的判别分析适用于被解释变量是非度量变量的情形。在这种情况下,人们对于预测和解释影响一个对象所属类别的关系感兴趣,比如为什么某人是或者不是消费者,一家公司成功还是破产等。判别分析的基本思想基本思想当被解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。当包含两组时,称作两组判别分析。当包含三组或者三组以上时,称作多组判别分析。判别分析最基本的要求是:分组类型在两组以上;每组案例的规模必须至少在一个以上。解释变量必须是可测量的,才能够计算其平均值和方差,使其能合理地应用于统计函数。判别分析的假设假设之一是:每一个判别变量(解释变量)不能是其他判别变量的线性组合。这时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。有时一个判别变量与另外的判别变量高度相关,或与另外的判别变量的线性组合高度相关,虽然能求解,但参数估计的标准误将很大,以至于参数估计统计上不显著。这就是通常所说的多重共线性问题。假设之二是:各组变量的协方差矩阵相等。假设之三是:各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。meira2023-05-19 11:01:391