搜档网

搜档网

当前位置:搜档网 > 2012年数学建模A题优秀论文

2012年数学建模A题优秀论文

基于数理分析的葡萄评价体系

摘要

葡萄酒质量的好坏主要依赖于评酒员的感观评价,由于人为主观因素的影响,对于酒质量的评价总会存在随机差异,为此找到一种简单有效的客观方法来评酒,就显得尤为重要了。本文通过研究酿酒葡萄的好坏与所酿葡萄酒的质量的关系,以及葡萄酒和酿酒葡萄检测的理化指标的关系,以及葡萄酒理化指标与葡萄酒质量的关系,旨在通过客观数据建立数学模型,用客观有效的方法来评价葡萄酒质量。

对于问题一,我们首先用配对样品t 检验方法研究两组评酒员评价差异的显著性,将红葡萄酒与白葡萄酒进行分类处理,用SPSS 软件对两组评酒员的评分的各个指标以及总评分进行了配对样本t 检验。得到的部分结果显示:红葡萄酒外观色调、香气质量的评价存在显著性差异,其他单指标的评价不存在显著差异,白葡萄、红葡萄以及整体的评价存在显著性差异。接着我们建立了数据可信度评价模型比较两组数据的可信性,将数据的可信度评价转化成对两组评酒员评分的稳定性评价。首先我们对单个评酒员评分与该组所有评酒员评分的均值的偏差进行了分析,偏差不稳定的点就成为噪声点,表明此次评分不稳定。然后我们用两组评酒员评分的偏差的方差衡量评酒员的稳定性。得到第 2 组的方差明显小于第1 组的,从而得出了第2 组评价数据的可信度更高的结论。

对于问题二,我们根据酿酒葡萄的理化指标和葡萄酒质量对葡萄进行了分级。一方面,我们对酿酒葡萄的一级理化指标的数据进行标准化,基于主成分分析法对其进行了因子分析,并且得到了27 种葡萄理化指标的综合得分及其排序。另一方面,我们又对附录给出的各单指标百分制评分的权重进行评价,并用信息熵法重新确定了权重,用新的权重计算出27 种葡萄酒质量的综合得分并排序。最后我们对两个排名次序用基于模糊数学评价方法将葡萄的等级划分为1-5 级。

对于问题三,首先我们将众多的葡萄理化指标用主成分分析法综合成 6 个主因子,并将葡萄等级也列为主因子之一。对葡萄的 6 个主因子,以及葡萄酒的10 个指标用SPSS 软件进行偏相关分析,得到酒黄酮与葡萄的等级正相关性较强等结论。之后对相关性较强的主因子和指标作多元线性回归。得到了葡萄酒10 个单指标与主因子之间的多元回归方程,该回归方程定量表示两者之间的联系。

对于问题四,我们首先将葡萄酒的理化指标标准化处理,对葡萄酒的质量与葡萄的6 个主因子和葡萄酒的10 个单指标作偏相关分析,并求出多元线性回归方程。该方程就表示了葡萄和葡萄酒理化指标对葡萄酒质量的影响。之后,我们通过通径分析方法中的逐步回归分析得到葡萄与葡萄酒的理化指标只确定了葡萄酒质量信息的47%。从而得出了不能用葡萄和葡萄酒的理化指标评价葡萄酒的质量的结论。接着我们还采用通径分析中的间接通径系数分析求出各自变量之间通过传递作用对应变量的影响,得到单宁与总酚传递性影响较强等结论。最后,我们对模型的改进方向以及优缺点进行了讨论。

关键词:配对样本t检验主成分分析模糊数学评价多元线性回归

1问题重述

葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。附件中给出了某一年份一些葡萄酒的评价结果,并分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据,我们需要建立数学问题解决以下问题:

1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?

2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。

4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?

2问题分析

1.1.问题的重要性分析(社会背景)

众所周知,葡萄酒质量的好坏,主要靠感官品尝和理化指标分析的方法来确定。目前我国规定,对葡萄酒的感官品尝主要从色泽,香气,口味,风格四个方面进行品评,而品评往往受到评酒人员的嗜好,习惯,情绪,年龄,经验等因素的影响,评定常有一定程度的主观性和不确定性,这使评分的可靠性受到影响。如何解决以上一系列问题变得非常重要。

1.2.有关方面在这个问题上做过的研究

现有文献中大部分都从葡萄酒和酿酒葡萄的物理化学属性方面进行研究,一般只得到定性结果,很少见到定量具体分析,不利于葡萄酒质量的控制与提高。本文基于对所给三个附件数据的处理和分析,针对各具体问题提出了若干数学模型得到了较为满意的解答。

3问题假设

1. 假设各样本能真实客观地反映酿酒葡萄与葡萄酒的情况;

2. 葡萄酒的质量只与酿酒葡萄的好坏有关,忽略酿造过程中的温度、湿度、人为干扰等其他因素的影响;

3. 不考虑理化性质的二级指标;

4. 每组评酒员的打分不受上个酒样品的影响,即各评分数据间独立;

5.假设20 名评酒员的评价尺度在同一区间,个人偏好影响可以忽略。

4模型符号解释 i a

红葡萄的样品号 i=1、2...27 i b 白葡萄的样品号 i=1、2 (28)

ij A 评酒员对红葡萄指标的各种评分 i=1、2 j=0、1 (9)

B ij 评酒员对白葡萄指标的各种评分 i=1、2 j=0、1 (9)

1X i ,2X i 红,白酿酒葡萄的各种理化指标 i=0、1…

1Y i ,2Y i 红,白葡萄酒的各种理化指标 i=0、1…

cij 评酒员评出的红葡萄样品的总分 i=1、2 j=0、1 (27)

D ij 评酒员评出的白葡萄样品的总分 i=1、2 j=0、1 (28)

T 评酒员对10个样品的评分的总分

d

每组中两样本各对数据之差

5模型的建立与分析

5.1数据的预处理

经过对数据的查找,我们发现部分原始数据存在异常,另外有些类型数据存在缺失, 在此我们将其正常化处理。

缺失数据的处理

对于数据中存在的缺失现象,本文采用均值替换法对这种缺失数据进行处理。 均值替换法就是将该项目剔除异常数据后取整剩余数据的平均值来替换异常或缺失数据的方法,即:

][91,1∑≠=*=m

k k k m x x 其中,*m x 为缺失值。

由于不同品酒师对同一样本相同项目的打分值差别不大,所以认为采用均值替换法来处理缺失数据是可行的。以“酒样品20”色调数据为例进行修补,得到修正后的数据如下表所示。

由于不同品酒师对同一样本相同项目的打分值差别不大,所以认为采用均值替换法来处理缺失数据是可行的。以“酒样品20”色调数据为例进行修补,得到修正后的数据如下表所示。

2012年数学建模A题优秀论文

5.2.1葡萄酒配对样品的t 检验

问题一中配对样品为27 组两个完全相同的酒样品在两组不同评酒员的检测下得到的两组数据,其中两组中各个指标的数据为各组10 个评酒员对该指标打分的平均值。该问题中的10 个指标分别为:外观澄清度、外观色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感持久性、口感质量、平衡/总体评价。根据t 检验的原理,对葡萄酒配对样品进行t 检验之前我们要对样品进行正态性检验。首先我们根据附件一并处理表格中的数据,得到配对样品的两组数据,绘制红葡萄酒配对样品表格部分数据如表1:

2012年数学建模A题优秀论文

白葡萄酒配对样品表格部分数据如表2:

2012年数学建模A题优秀论文

2012年数学建模A题优秀论文

从上表中我们能看出,将白葡萄酒和红葡萄酒中的每个指标分别进行样品的配对

后,每一个指标的配对结果有27 对,每一对的双方分别是1 组和2 组的评酒员对该指标的评分的平均值。

5.2.2样本总体的K-S 正态性检验

配对样品的t 检验要求两对应样品的总体满足正态分布,则总体中的样品应该满足正态性或者近似正态性,样本的正态性检验如下:以红葡萄酒的澄清度的27 组数据为例分析:利用SPSS 软件绘制两样品的直方图和趋势图如图 1 所示:

2012年数学建模A题优秀论文

我们假设两组总体数据都服从正态分布,利用SPSS 软件进行K-S 正态性检验的具体结果见附录2.3。两组数据的近似相伴概率值P 分别为0.239 和0.329,大于我们一般的显著水平0.05 则接受原来假设,即两组红葡萄酒的澄清度数据符合近似正态分布。

同理可用SPSS 软件对其他指标的正态性进行检验,得到结果符合实际猜想都服从近似正态分布。

5.2.3 葡萄酒配对样品t 检验步骤

两种葡萄酒的处理过程类似,这里我们以对红葡萄酒评价结果的差异的显著性分析为例。

2012年数学建模A题优秀论文

5.2.4红葡萄酒各指标差异显著性分析

由SPSS 软件对红葡萄酒各指标的配对样品t 检验后,得到各指标的显著性概率分布表。(结果如表3 所示)

2012年数学建模A题优秀论文

由统计学知识,如果显著性概率P<显著水平 ,( 50.0 ),则拒绝零假设,即认为两总体样本的均值存在显著差异。若P>显著水平 ,则不能拒绝零

假设,即认为两总体样本的均值不存在显著差异。

则根据表3 可得:两组评酒员对红葡萄酒各项指标的评价中除外观色调、香

气质量存在显著性差异以外,其他8 项指标都无显著性差异。

5.2.5白葡萄酒各指标差异显著性分析

代入白葡萄酒的评价数据,重复以上步骤,得到白葡萄酒各指标的显著性概

率P 分布表。(结果如表4 所示)

2012年数学建模A题优秀论文

5.2.6葡萄酒总体差异显著性分析

(1)红葡萄酒总体差异显著性分析该问题的附件中已经给出了10 项指标的权重,因此将10 项指标利用加权合并成总体评价。对于红葡萄酒两组评价结果构造两组配对t 检验。得到显著性概率P=0.030。即红葡萄酒整体评价结果有显著性差异。

(2)白葡萄酒总体差异显著性分析同理对于白葡萄酒两组评价结果构造两组配对t 检验。得到显著性概率P=0.02。即白葡萄酒整体评价结果有显著性差异。(3)葡萄酒总体差异显著性分析对于白葡萄酒和红葡萄酒总体评价结果配对t 检验。得到显著性概率P=0.002。即两组对整葡萄酒的评价有显著性差异。

5.2.7 数据可信度评价指标建立

由于整体评价数据无显著性差异,我们可以认为20 名评酒员的水平在一个区间内。因此评酒员的评价结果的稳定性将决定该评酒员评价的数据的可信度。若某一评酒员的评价数据不稳定,则其所评数据可信度较低,其所在组别的数据评价可信度也将相应降低。因此,我们将数据的可信度比较转化为两组评酒员评论水平的稳定性比较。查阅相关资料获知,评酒员的评价尺度是有一定的系统误差的。如不同评酒员对色调的敏感度或许是不同的,如果某一评酒员评价的色调稍高于标准色调,但他每次评价的色调都稍高,而且一直很稳定。虽然与均值间始终存在误差,由于其稳定性,这样的评酒员的评价数据仍然是可信的。所以,我们建立的数据可信度评价指标为评酒员评价的稳定性。评酒员的评价数据越稳定,数据越可信。

5.2.8数据可信度评价模型的建立与求解

通过对数据的初步观察处理,发现每位评酒员的系统偏差都较小,20 位评酒员的评价尺度近似处在同一区间,因此我们不对附件中的数据进行标准化处理,认为附件中的数据的系统偏差可以忽略。

(1)首先作出观察评酒员稳定性的偏差图,其中偏差为评酒员对同一个单指标的评分值与该组评论员评分的平均值之差。下面利用matlab 软件作出第2 组中1 号和2 号评酒员对27 种红葡萄酒的澄清度评分与组内平均值的偏差如下

2012年数学建模A题优秀论文

图2 第2 组中1(左)、2 号评酒员对澄清度评分与组内平均值偏差图分析上图可以看出,1 号评酒员在对27 种酒的澄清度评分时,出现了3 个噪声点,(即偏离自己的平均水平较大的点)。2 号评酒员在评分的时候只出现了91 个噪声点。因而可以初步判定2 号评酒员的稳定性比1 号评酒员的稳定性好。

(2)各指标偏差的方差计算

基于以上分析:要评价一个评酒员评价的稳定性,我们可以观察该评论员

在评价时具有的噪声点的个数。噪声点的个数也可用评酒员的评酒数据与该组所 评数据平均值的偏差的方差2s 进行计算衡量。

在此问中我们仍然选择两组红葡萄酒的评分求解偏差的方差。评酒员评价数 据中包含10 个评价指标,分别为外观澄清度、外观色调平衡……整体评价等。 我们给它们分别标号为从1-10。

在第1 组中,10 位评酒员对n 号酒样品的j 项指标评分的平均分为:

10101∑==i n ij

n ij x x (1)

第i 号评酒员对n 号酒样品第j 项指标评分与平均值的偏差为:

n ij i n ij x x -=∑=10

101δ(2) 第i 号评酒员对酒样品的j 项指标评分与平均值的偏差的平均值为:

)10(271101271n ij i n ij

i x x -=∑∑==δ(3) 第i 号评酒员对酒样品的j 项指标评分与平均值的偏差的方差为:

271012712))10(27)((271n ij i n ij

i n

ij

n ij ij x x x x s ---=∑∑== 同理,第2 组中第i 号评酒员对酒样品j 项指标评分与平均值的偏差的方差为:

271012712))10(27)((271n ij i n ij

i n ij n ij ij y y y y s ---='∑∑== (3)总体的偏差的方差计算

问题1 的附件中应经给出了10 项单指标的权重 j (每项指标的满分

值),利用该权重可得到第2 组总体指标偏差的方差为:

)))10(27)((271(2710127110

12

n ij i n ij

i n ij n ij i ij

y y y y s ---?='∑∑∑===ω(6) 第2 组10 名评酒员的27 个酒样品的10 项单指标的总体的偏差的方差为:

)))10(27)((27(27101271210110

12

n ij i n ij

i n ij

n ij j i j y y y y s ---='∑∑∑∑====ω

第1 组10 名评酒员的27 个酒样品的10 项单指标的总体的偏差的方差为:

)))10(27)((27(

27101271210110

12n ij i n ij

i n ij

n ij j i j x x x x s ---='∑∑∑∑====ω(8) 5.2.9数据可信度评价结果分析

由附件中的数据求得:1 组的10 名评酒员的27 个酒品的10 项单指标

的总体的偏差的方差 2s =33.34329492;2组的10名评酒员的27个酒品的10项 单指标的总体的偏差的方差'2s '=10.6398025;

因此,我们认定2 组的评酒员的评价的稳定性较高,第2 组的数据更可信。

5.2.10问题1的结果分析

在本问中,我们通过对两组评酒员的品酒打分情况统计数据按照指标进 行配对t 检验,发现有部分指标存在显著性差异。接着,我们又对样本总体做了一次t 检验,发现两组评酒员之间的评分已经不存在显著性差异。随后,我们把对每组数据可靠性的评价转化为对每组各个评酒员稳定性的评价,最后得出了第二组数据更加可靠的结论。

5.3模型二分析

葡萄酒是一种成分复杂的酒精饮料,不同产地、年份和品种的葡萄酒成分不

同。成分与葡萄酒的质量关系密切,是划分葡萄酒等级的重要依据。对于问题二的求解,可通过葡萄酒的等级和酿酒葡萄的理化指标来对酿酒葡萄进行分级。

5.3.1.1 葡萄酒数据

葡萄酒数据包括27个红葡萄酒样本和28个白葡萄样本,输入的变量包括客观的测试(如花色苷),输出变量基于感觉数据(葡萄酒专家提出的至少3个评价的均值)。每位专家的葡萄酒质量分级介于 0 (极坏的) 和 10 (非常优秀)。极好的和极差的葡萄酒的样本都是少数, 评价为中间的葡萄酒样本最多,因此可以从葡萄酒专家的评分来确定葡萄酒的质量。由问题一的求解已经确定第二组品酒师的评分显著性差异较小,所以对葡萄酒的质量评价可借助于第二组评酒师的评分作为依据建立模型。

5.3.1.2 酿酒葡萄理化指标数据

根据对酿酒葡萄理化测试得到的输入变量为30个,包括氨基酸总量(mg/100gfw),蛋白质(mg/100g),VC 含量(mg/L),花色苷(mg/100g),鲜重(g),酒石酸(g/L ),苹果酸(g/L ),柠檬酸(g/L ),多酚氧化酶活力((A/min ·g ·ml )),褐变度(ΔA/g*g*min*ml),DPPH 自由基1/IC50(g/L ),总酚(mmol/kg),单宁(mmol/kg),葡萄总黄酮(mmol/kg ),白藜芦醇(mg/kg),黄酮醇(mg/kg),总糖(g/L ),还原糖(g/L ),可溶性固形物(g/l ),PH 值,可滴定酸(g/l ),可滴定酸,干物质含量g/100g ,果穗质量/g ,百粒质量/g ,果梗比(%),出汁率(%),果皮质量(g ),果皮颜色。借助各项理化指标可对酿酒葡萄的质量进行评分。

5.3.1.3 质量评估方法

数据挖掘、神经网络、模式识别、机器学习等技术都能在葡萄酒分类中应用。 复杂的模型容易过拟合导致泛化能力减弱, 模型太简单导致学习能力有限。神经网络、支持向量机两种方法均有参数可以调整,能获得令人满意的效果。由于

酿酒葡萄的理化指标参数为多元数据,因此采用图表示的可视化分类方法可取得比较好的效果。

采用图表示的可视化分类方法,一般使用星点图 ,是目前应用最广泛的对

多元数据进行作图的方法。由于星点图是将正交坐标轴重新安排为非正交的坐标轴,即相交于圆心的径向坐标轴,因此可以在二维平面上同时显示多维数据。 从星点图的图表示可以看出,特征排序很重要外,相邻维之间的角度的作用也重要。星点图之所以能可视化,就是因为星点图要求所有相邻维之间的角度的总和等于2π。

多维数据用图来表示,可能会形成有利于视觉上分类或聚类的很有特色的图

形特征。这与传统的三大特征 相对应。重心是星点图多边形提供的一种图形特征。从几何角度看,一个样本的星点图中的每一个三角形都产生一个重心。从几何上讲三角形三条中线相交于一点,这个交点叫做三角形的重心,而且三角形的重心与顶点的距离等于它与对边中点的距离的2倍。当然也可以利用三角形的重心坐标是 3个顶点坐标的平均值的性质,计算的结果是一样的。可以把三角形重心称为重心图形特征 (维数与原始特征维数一样)。星点图的重心图形特征提取方法如下:

()221112cos ,3

i i i i i i i r r rr G f r r ω+++++== 其中,2,1,2,,,i d d

πω== i r 和1i r +表示诡异化特征样本的第i 维变量和第i+1维变量的值,一般由预处理计算得到:弧度2d

πω=为第i 维变量和第i+1维变量间的夹角弧度。因此一个d 维特征的样本就会产生一个对应的d 维图形特征的样本。这样特征排序影响重心图形特征的问题就能够解决,它转化为一个特征选择问题。

因此,应用贝叶斯理论,这个规则表述如下:如果()()()()k k i j p x w P w p x w P w <><,所有的j k ≠,那么指定x 属于类k w 。这里()k p x w <是类概率密度函数,()k P w 是类k w 的先验概率。一般()k p x w <是未知的,需要从训练样本中估计。那么第i 个样本得到的结果就是一个回归值i p ,一般这个回归值和那个类别标签距离近,第i 个样本就属于哪个类别。提出一种新的方法如下:对于第i 个样本,利用分类方法得到一个类别标签i y ,利用回归方法得到一个排序的预测值i p ,如果i p 和 i y 的绝对值小于阈值 1,那么样本属于i y 类;否则样本i 属于距离预测值i p 最近的类。例如,第i 个样本的分类标签i y =5,排序的预测值i p =5.2,那么第i 个样本属于类别5;第i 个样本的分类标签i y =5,排序的预测值i p =6.2,那么第i 个样本属于类别6。

基于以上理论,可用图表示的可视化分类方法对酿酒葡萄的理化指标进行分类,从而达到对葡萄的分级,进而来确定酿酒葡萄的理化指标与葡萄酒的理化指标间的关系。

5.3.2 模型的应用与求解

对酿酒葡萄的30种理化指标分别编号,以该编号和酿酒葡萄理化指标的含量建立二维直角坐标系,并以理化指标的编号为输入变量,酿酒葡萄理化指标的含量为变量值,借助matlab软件(相应的matlab程序见附录),做出27个红葡萄样本和28个白葡萄样本的数据可视化平行坐标图。如图5 红葡萄数据的可视化平行坐标图和图6 白葡萄数据的可视化平行坐标图。

2012年数学建模A题优秀论文

图5 红葡萄数据的可视化平行坐标图

2012年数学建模A题优秀论文

图6 白葡萄数据的可视化平行坐标图

从图5和图6分析所得,对于同一种葡萄,这几类数据在很多理化性质上几乎相同,只有第1个变量氨基酸总量和第9个变量褐变度不同,这说明这两大理化性质大大影响口味。因此要根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,还需结合第二组品酒师对葡萄酒样本的打分和葡萄中氨基酸总

量和褐变度来进一步对酿酒葡萄进行分级。相应的数据见附录中葡萄中氨基酸与褐变度及相应葡萄酒的评分数据。

依以上数据,分别作出以葡萄中氨基酸含量(褐变度)和葡萄酒相应的评分建立直角坐标系,作出分布图,如图7 红葡萄酒中氨基酸含量和葡萄酒相应的评分分布图,图8红葡萄酒中褐变度和葡萄酒相应的评分分布图,图9白葡萄酒中氨基酸含量和葡萄酒相应的评分分布图,图10白葡萄酒中褐变度和葡萄酒相应的评分分布图

2012年数学建模A题优秀论文

图7 红葡萄酒中氨基酸含量和葡萄酒相应的评分分布图

2012年数学建模A题优秀论文

图8 红葡萄酒中褐变度和葡萄酒相应的评分分布图

通过对图5.3和图5.4的分析,当红葡萄中氨基酸和褐变度含量比较低时,

Q)对葡萄酒的影响比较低,当含量较高时,可以依据褐变度(t)对红葡萄质量(

1

进行分类如下:

10

(600,1000)1(1000,1400)

Q t t ?=∈??∈? 其中-1代表酿酒葡萄质量较差,0代表酿酒葡萄质量中等,1代表酿酒葡萄质量较好。

2012年数学建模A题优秀论文

图9白葡萄酒中氨基酸含量和葡萄酒相应的评分分布图

2012年数学建模A题优秀论文

图10白葡萄酒中褐变度和葡萄酒相应的评分分布图

通过对图5.5和图5.6的分析,得到对于白葡萄,氨基酸的含量对其所酿的葡萄的质量影响较大,因此可用白葡萄中氨基酸的含量(x )来衡量所酿的葡萄酒的质量(2Q ),具体分类如下:

()

20

(2500,3000)41(3000,5500)Q t t ?=∈??∈?

其中-1代表酿酒葡萄质量较差,0代表酿酒葡萄质量中等,1代表酿酒葡萄质量较好。

5.3.3模型二评价

应用以上图表示可视化分类模型,虽能对葡萄等级进行分级,但由于其并没

有考虑酿酒葡萄中各成分理化指标的相互关系及对所酿葡萄质量的影响,所以其模型人具有许多不足之处,需对酿酒葡萄与葡萄酒的理化指标之间联系的进一步研究来完善该模型。

5.4问题三的求解

在分析酿酒葡萄与葡萄酒的理化指标之间的关系时,本文使用了层次聚类分析和典型相关分析。

5.4.1层次聚类分析

根据聚类分析的原理可知,它的实质是建立一种分类方法,将一批样本数据按照它们在性质上的亲密程度在没有先验知识的情况下进行自动分类。这种类就是一个具有相似性的个体的集合,不同类之间具有明显的区别。

层次聚类分析是根据观察值或变量之间的亲疏程度,将最相似的对象结合在

一起,以逐次聚合的方式将观察值分类,直到最后所有样本都聚成一类。由第三问可知,要想分析酿酒葡萄与葡萄酒的理化指标之间的联系,必然要用到附件2-指标总表中的大量数据,如果不先对这些样本进行简化,就很难找到它们之间的内在关系。而R 型聚类分析使具有共同特征的变量聚在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。

对于附件二—指数总表,我们根据其中的一级指标(即标记为蓝色的)先大

致把酿酒葡萄的理化指标分为30个,其中,1为氨基酸总量,2为蛋白质,3为VC 含量,定义4 30依次为:花色苷、酒石酸、苹果酸、柠檬酸、多酚氧化酶活力、褐变度、DPPH 自由基、总酚、单宁、葡萄总黄酮、白藜芦醇、黄酮醇、总糖、还原糖、可溶性固形物、PH 值、可滴定酸、干物质含量、果穗质量、百粒质量、果梗比、出汁率、果皮质量、果皮颜色。

定性考察酿酒葡萄的理化指标,可以看出,某些指标之间可能存在较强的相

关性。比如红(白)葡萄中的总糖、还原糖与可溶性固行物之间可能存在较强的相关性,总酚、单宁与葡萄总黄酮之间也可能存在较强的相关性。为了验证这种想法,运用MATLAB 软件计算红葡萄30个一级指标之间的相关系数,得到的相关系数矩阵如表所示:

(因样本的指标太多,在此只列出了前十个指标的相关系数矩阵,具体完整的相关系数矩阵参见附件一中的表格 (3))

可以看出某些指标之间确实存在很强的相关性,因此可以考虑从这些指标中

选取几个有代表性的指标进行聚类分析。为此,把三十个指标根据其相关性进行R 型聚类,再从每个类中选取代表性的指标。

因为在聚类分析中如果参与聚类的变量的量纲不同,就会导致错误的聚类结

果。因此在聚类过程进行之前必须对每个理化指标的数据分别进行标准化处理,

以消除量纲的影响。指标间相近性度量采用相关系数,类间相近性度量的计算选用类平均法。聚类树形图如下图

2012年数学建模A题优秀论文

11131012 226 4 9 6 81525 5 71921 11618221720 314302928232427

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

图 11 红葡萄指标类聚树形图

从红葡萄指标聚类图中可以看出,可以将红葡萄的30个理化指标分为八类,分类结果如下( []中的代表聚为一类)

[2、10、11、12、13、26]、[4、6、8、9、15、25]、[5、7]、[19、21]、[1、16、17、18、20、22]、[3]、[14、28、29、30]、[23、24、27]

同理可得,白葡萄的前十个指标的相关系数矩阵如下表所示:(见附录)

2012年数学建模A题优秀论文

111315 212 9 1 616181722102830201423242726 3 525 4 829 71921

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

图12 白葡萄指标类聚树形图

依据白葡萄指标聚类图中,同样可以将白葡萄30个理化指标分为以下八类

[2、9、11、12、13、15]、[1、6、10、16、17、18、20、22、28、30]、[3、5、25][14]、[23、24、26、27]、[4、8、29]、[7]、[19、21]

对比以上得到的两种酿酒葡萄的指标类聚树形图和由它们将各自的30种理

化指标的分类结果,我们不难发现,通过对两组指标分别用R 型聚类分析归类之后,两种酿酒葡萄的归类区间有着明显的相似度,再结合它们内部的联系和所归的类与类之间的差异,可以得到如下的对应关系: 表5:主成分列表

糖类 酚类 持久度 酸度 酒精度 微量元素 色度 果皮质地 1、16、17、18、20、22

2、11、12、13 4、8、 9、15 5、6、7 19、 21 3 14、28 29、30 2

3、2

4、26、27

再通过两组理化指标的相关系数可以得出各类的主要指标:依次为糖类中的

总糖,酚类中的总酚,持久度的酚氧化酶活性,酸度中的苹果酸,酒精度中的PH 值,微量元素VC 含量,色度中的白芦藜醇,果皮质地中的果硬比。

5.4.2典型相关分析

通常情况下,为了研究两组变量

()1,2,p x x x ,()1,2,.....,q y y y

的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq 个简单相关系数,这样又繁琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。

为此,我们可以分别在每组变量中找出第一对线性组合,使其具有最大相关性,

111121*********

1p p q q u a x a x a x v b y b y b y =++???=++?? 然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合

不相关,第二对本身具有次大的相关性。

2121222221212222p p q q

u a x a x a x v b y b y b y =++??=++?

2u 与1u ,2v 与1v 不相关,但2u 和2v 相关。如此继续下去,直到进行到r 步,两组变量的相关性提取完为止,可以得到r 组变量,这里r ≤()min ,p q 。

研究两组随机变量之间的相关关系,可用复相关系数(也称全相关系数)。 复相关系数描述两组随机变量()12,,p X x x x = 与()1,2,p Y y y y = 之间的相关程度。其思想是先将每一组随机变量作线性组合,成为两个随机变量:

1p T i i i u a X a x ===∑,1

q

T j j j v b Y b y ===∑ 再研究u 与v 的相关系数。由于u ,v 的投影与向量a ,b 有关,所以uv r 与

a ,

b 有关,(,)uv uv r r a b =。我们取在1T XX a a =∑和1T YY b b =∑的条件下使uv r 达

到最大的a ,b 作为投影向量,这样得到的相关系数为复相关系数:()max ,uv uv r r a b =λ。

将两组变量的协方差矩阵分块得:

()()()(),,XX XY YX YY Var X Cov X Y X Cov Cov Y X Var Y Y ??????== ? ? ? ???????

∑∑∑∑, 此时

()

()(),T T T XY T uv XY T T T T XX YY Cov a X b Y a b

r a b a a b b D b Y D a X ===∑∑∑∑

因此问题转化为在1T XX a a =∑和1T YY b b =∑的条件下求T XY a b ∑的极大值。 根据条件极值的求法引入Lagrange 乘数,可将问题转化为求

()()(),1122

T T T XY XX YY S a b a b a a b b λγ=----∑∑∑ 的极大值,其中λ,γ 是Lagrange 乘数。

由极值的必要条件得方程组:

00XY XX YX YY S b a a S a b b

λγ??=-=??????=-=???∑∑∑∑ 将上二式分别左乘T a 与T b ,则得

T T XY XX T T YX YY a b a a b a b b λλγγ

?==??==??∑∑∑∑ 注意T XY YX =∑∑,所以

T XY a b λγ==∑

代入方程组得:00

XY XX YX YY b a a b λλ?-=??-=??∑∑∑∑

以1YY -∑左乘第二式得1YY YX b a λ-=∑∑,所以 11YY YX b a λ-=

∑∑

代入第一式得 ()120XY YY YX XX a λ--=∑∑∑∑

同理可得

()120YX XX XY YY b λ--=∑∑∑∑

111XX XY YY YX M -

-=∑∑∑∑,112YY YX XX XY M --=∑∑∑∑

则得

21M a a λ=,22M b b λ=

说明2λ既是1M 又是2M 的特征根,,a b 就是其相应于1M 和2M 的特征向量。

1M 和2M 的特征跟非负,非零特征跟的个数等于()min ,p q ,不妨设为q 。

设21M a a λ=的特征跟排序为22212q λλλ≥≥≥ ,其余p q -个特征根为0,我

们称1,2,,q λλλ 为典型相关系数。相应21M a a λ=解出的特征向量为1,2,q a a a 从

22M b b λ=解出的特征向量为1,2,,,q b b b 从而可得q 对线性组合:

,,1,2,,T T i i i i u a X v b Y i q ===

称每一对变量为典型变量。求典型相关系数和典型变量归结为求1M 和2M 的特

征根和特征向量。

又因为,当 i j ≠ 时, 1,0,ij i j i j δ=?=?≠?

(,)(,)0T T T i j i j i XX j Cov u u Cov a X a X a a ==∑=

(,)(,)0T T

T i j i j i YY j Cov v v Cov b Y b Y b b ==∑=

表示一切典型变量都是不相关的,并且其方差为一,

(,)()i j i j ij Cov u u E u u δ==

(,)()i j i j ij Cov v v E v v δ==

其中

1,0,ij i j i j

δ=?=?

≠? X 与Y 的同一对典型变量i u 和i v 之间的相关系数为i λ,

不同对的典型变量i u 和i v (i j ≠)之间不相关,即协方差为0:

,(,)()0,i

i j i j i j Cov u v E u v i j λ=?==?≠?

当总体的均值向量μ和协差阵∑未知时,无法求总体的典型相关系数和典型变量,因而需要给出样本的典型相关系数和典型变量。

设(1)(),,n X X 和(1)(),,n Y Y 为来自总体容量为n 的样本,这时,协差阵的无

偏估计为

__()()1

__()()1

__()()1

1?()()11?()()11??()()1n T XX i i i n T YY i i i n T T XY YX i i i X X X X n Y Y Y Y n X X Y Y n ===∑=---∑=---∑=∑=---∑∑∑ 其中_()11n i i X X n ==∑,_()11n i i Y Y n ==∑,用?∑代替∑并按 和 求出?i λ和?a ,?b ,称?i λ为样本典型相关系数,称??T i i u

a X =,??T i i v a Y =,(1,,)i q = 为样本的典型变量。 计算时也可从样本的相关系数矩阵出发求样本的典型相关系数和典型变量,

将相关系数矩阵R 取代协方差阵,计算过程是一样的。

如果复相关系数中一个变量是一维的,那么也可称为偏相关系数。偏相关系

数是描述一个随机变量y 与多个随机变量(一组随机变量)12(,,)T p X x x x = 之间的关系。其思想是先将那一组随机变量作线性组合,成为一个随机变量:

1p

T

i i i u c X c x ===∑ 再研究y 和u 的相关系数。由于u 和投影向量c 有关,所以yu r 与c 有关,

()yu yu r r c =。我们取在1T XX c c ∑=的条件下使yu r 达到最大的c 作为投影向量得到的相关系数为偏相关系数: