多元统计分析在数学建模中的应用(2)

只有用数量化的方式表述事物间相似的程度,才能将事物进行数量化的分类,并且往往要用到多个不同的变量来描述.假如要用p个变量表述一个有待分类


只有用数量化的方式表述事物间相似的程度,才能将事物进行数量化的分类,并且往往要用到多个不同的变量来描述.假如要用p个变量表述一个有待分类的样本点集,则其中每一个样本点都能看作是Rp空间中的一个点.所以,通常选用样本点之间的距离来描述样本点之间的相似度.

在聚类分析中,对定量变量,一般使用Minkowski距离

           ,q>0

当q=1时得到绝对值距离,q=2时得到欧式距离,q→+ 时,则得到Chebyshev距离[5].

除此之外,还会用别的关联性度量来描述事物间的相似程度.近些来年,随着对大数据处理分析方法的深入研究,也得到了许多新的方法.

假设有两个样本类 和 ,通常用以下的方法来度量两个类的距离:

(1)最短距离法,它表示两个类中距离最近的两点之间的距离.

(2)最长距离法,它表示两个类中距离最远的两点之间的距离.

(3)重心法, ,其中 分别为 的重心.

(4)类平均法,它等于 中两两样本点距离的平均.

1.2 变量聚类法

在现实生活中,也经常用到变量聚类法.在对数据进行系统性的分析和评估时,通常在一开始就尽可能的考虑较多的相关因素,据此来选取有关的指标,避免漏掉个别重要的因素.但是这么做所带来的结果就是,选取的指标过多,变量增加,而变量之间就会有较高的相似度.因此往往要分析变量之间的相似关系,再根据所得的关系结果将它们整合成多个类别,然后找到影响整个数据系统的主要因素[6].

变量聚类法主要分为最大系数法和最小系数法两种.

2.聚类分析在数学建模中的应用

纵观近几年的数学建模竞赛试题,每年都有大数据试题出现,例如2012高教社杯全国大学生数学建模竞赛A题的葡萄酒评价问题,要解决诸如此类的大数据问题,多元统计分析是必不可少的工具,而聚类分析又是针对多维数据处理最常用的统计分析方法.为了更直观的论述,以下选取了一道相对基础的例题进行简单的数据聚类.