判别分析的基本思想 判别分析
大家好,我是小典,我来为大家解答以上问题。判别分析的基本思想,判别分析,很多人还不知道,现在让我们一起来看看吧!
1、在气候分类、农业区划、土地类型划分中有着广泛的应用。
2、在市场调研中,一般根据事先确定的因变量(例如产品的主要用户、普通用户和非用户、自有房屋或租赁、电视观众和非电视观众)找出相应处理的区别特性。在判别分析中,因变量为类别数据,有多少类别就有多少类别处理组;自变量通常为可度量数据。通过判别分析,可以建立能够最大限度的区分因变量类别的函数,考查自变量的组间差异是否显著,判断那些自变量对组间差异贡献最大,评估分类的程度,根据自变量的值将样本归类。
3、应用范围
4、1)信息丢失
5、2)直接的信息得不到
6、3)预报
7、4)破坏性实验
8、假设条件
9、1)分组类型在两种以上,且组间样本在判别值上差别明显。
10、2)组内样本数不得少于两个,并且样本数量比变量起码多两个。
11、3)所确定的判别变量不能是其他判别变量的线性组合。
12、4)各组样本的协方差矩阵相等。
13、5)各判别变量之间具有多元正态分布。
14、6)样品量应在所使用的自变量个数的10~20倍以上时,建立的判别函数才比较稳定;而自变量个数在8~10之间时,函数的判别效果才能比较理想。当然,在实际工作中判别函数的自变量个数往往会超过10个,但应该注意的是,自变量的个数多并不代表效果好
15、spss操作:“分析”~“分类”~“判别”~进入判别分析主对话框。
16、这里有容易引起歧义的二个变量,最上面的为分组变量。对分组变量的了解需要联系判别分析的原理以及适用范围。因为判别分析是已知分类数目的情况下,进行分析,这个已知的分类数目就是这个分组变量。其实,一般分析步骤中,都是先进行聚类分析,聚类之后得到的分类结果就是这个分组变量,然后再选择这个分组变量,进行分析。也就是,聚类分析是母亲,母亲的孩子就是判别分析。得到的判别函数就是预测想要知道的个案究竟属于哪一类。另一个变量就是选择变量,它位于主对话框的最下面。这个选择变量在回归分析相应的对话框中也有,意思就是选择你需要的变量,这个变量可以为数据窗口的一个整个变量,也可以利用子设置“值”进行选择,所以,它的名字叫做选择变量。
17、“统计量”子对话框:“描述性”栏,包括“均值”“单变量ANOVA”“BoxsM”
18、需要特别说明,以后只要见到ANOVA这个单词,它的意思就是方差分析,也就是进一步输出方差分析表,其中最重要的就是P值也就是Sig值。
19、BoxsM复选框:指的是输出对组协方差矩阵的等同性检验的检验结果。也就是对各类协方差矩阵相等的假设进行检验。
20、“函数系数”栏:其实就是将判别函数系数进行设置。包括“费雪”和“未标准化”。费雪指的是对每一类给出一组系数,并且给出该组中判别分数最大的观测量。
21、“矩阵”栏:都是复选框,对应相应的矩阵也就是在结果表中的四种数阵。“组内相关”“组内协方差”“分组协方差”“总体协方差”这个都是计算机自动计算,人工计算是不可能完成的任务。
22、“分类”子对话框:本文也提到过先验概率,先验概率就是已知一部分信息,来了解未知信息也就是后验概率。
23、“所有组相等”也就是如果分为几类,这所有的类中的先验概率都相等。
24、“根据组大小计算”各类先验概率按照和各类样本量呈正比。
25、“使用协方差矩阵”栏:是二个单选框。“在组内”指使用合并组内协方差矩阵进行分析
26、“分组”指使用各组协方差矩阵进行分析。
27、“输出”栏~“个案结果”:对每一个观测量输出判别分数,也就是选定变量的个案的分进哪个组的资格得分。实际类,预测类,也就是根据判别得分计算的古今对比。实际类就是目前实际上分为几类,预测类就是过去对未来预测,它们一对比,就可以知道过去和现在差别在哪里。附属选项“将个案限制在”在后面的小矩形框中输入观测量数,含义为仅输出设置的观测量结果,当个案也就是观测量太多,可以用此法。
28、“摘要表”输出分类小结,给出正确和错分的观测量数,和错判率。
29、“不考虑该个案时的分类”这个根据字面就可以理解,不赘述。
30、“图”栏:“合并组”生成一张包括各类的散点图,该散点图根据前两个判别函数得到,如果只有一个判别函数,则生成直方图。
31、“分组”复选框:有几类就有几张散点图,和上面一样,如果只有一个判别函数,就生成直方图。
32、“区域图”复选框:将观测量分到各组中去的区域图。此图将一张图的平面划分出类数,相同的区域,每一类占据一个区,各类的均值在各区中用星号标出,如果仅有一个判别函数,即没有此图。
33、“保存”子对话框:这个设置是非常重要的,并且特别直观,只要选择,就可以在数据窗口生成相应的新变量。这个新变量分别是:“预测组成员”这个预测组成员是根据判别分数,以及后验概率最大的预测分类。也就是,每个个案的预测分类。
34、“判别得分”这个根据名字就可以理解。该分数=没有标准化的判别系数×自变量的值+一个常数。每次运行判别过程都给出一组表明判别分数的新变量。有几个判别函数就建立几个判别函数减1的新变量。新变量名称词头为dis-。
35、举例:1 医学实践中根据各种化验结果,疾病症状等判断病人患有什么疾病。
36、2 体育人才选拔根据运动员的体形,运动成绩,生理指标,心理素质指标判断是否继续培养。
37、3 动植物分类
38、判别分析最主要的分析目的:得到判别函数,对未知个案进行预测分类。
39、“组成员概率”表示观测量属于哪一类的概率,有几类,就给出几类概率值,新变量默认名为dis预测分类数-判别概率,例如有三类,二个判别函数,则新变量名称可以为dis1-1,dis2-1,dis3-1,dis3-2以此类推。
40、逐步判别分析:只要在主对话框中选择“使用步进式方法”,就可以筛选变量,同时,方法对话框将激活。
41、“方法”对话框中“标准”栏的设置和线性回归的一样,不赘述。
42、“方法”栏:原则就是,负面指标越小越好,正面指标越大越好。负面指标是wilks lambda和未解释方差,正面指标是马氏距离,最小F值,Raos V。马氏距离在回归中越大代表这个个案为影响点可能越大,也就是,只有这个个案为影响点,它越重要,越对判别函数影响越大,把它挑出来,也就是马氏距离最大。
43、结果:1 sig值小于0.05,说明可以继续分析,函数具有判别作用,也就是有统计学意义。
44、2 数据窗口对话框,将在“保存”子对话框设置的新变量和在主对话框的分组变量进行对比,每个个案被分到哪类,以及判别得分,都一目了然。
45、3 根据输出表中的系数,可以写出判别函数,进行以后的预测。
本文到此讲解完毕了,希望对大家有帮助。