搜档网
当前位置:搜档网 › 判别分析与数学建模

判别分析与数学建模

判别分析与数学建模
判别分析与数学建模

判别分析与数学建模

一、问题引入

首先,我们来考虑一下2000年“网易杯”全国大学生数学建模竞赛的A题是关于“DNA 序列分类”的问题:

人类基因组中的DNA全序列是由4个碱基A,T,C,G按一定顺序排成的长约30亿的序列,毫无疑问,这是一本记录着人类自身生老病死及遗传进化的全部信息的“天书”。但是,除了这四种碱基外,人们对它所包含的内容知之甚少,如何破译这部“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。

虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。

作为研究DNA序列的结构的尝试,试对以下序列进行分类:

问题:下面有20个已知类别的人工制造的序列(见附表),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):

A类;B类

附表:

Art-model-data

1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaagg aggcttgtctacggccggaagtgaagggggatatgaccgcttgg

2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgg gacaaggaaggcggctggaacaaccggacggtggcagcaaagga

3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacgga cggaacggaggaaggagggcggcaatcggtacggaggcggcgga

4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgtttttt aaataaaatttgtattattatggtatcataaaaaaaggttgcga

5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtt tcggcggaaaggcggagggctggcaggaggctcattacggggag

6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatattt cggaagtggatattaggagggcggaataaaggaacggcggcaca

7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaa tggaaaaaggactaggaatcggcggcaggaaggatatggaggcg

8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcga caaggaggcggaccataggaggcggattaggaacggttatgagg

9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcga aaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg

10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatcca ggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg

11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggta agtaatccaacgtttttattactttttaaaattaaatatttatt

12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttgg ttttttttaaggtagttatttaattatcgttaaggaaagttaaa

13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaag ttaaccgaattattttctttaaagacgttacttaatgtcaatgc

14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcg gagttcatattctaatctgtctttattaaatcttagagatatta

15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttt tttttttttttttttttttttttttttaaaatttataaatttaa

16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctgga tcgataatgtaaacttattgaatctatagaattacattattgat

17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctc agtaaaatcaatccctaaacccttaaaaaacggcggcctatccc

18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttt tgtcctatagagaaattacttacaaaacgttattttacatactt

19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattc ttactttttttcttctttatataggatctcatttaatatcttaa

20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgattta aacttttgtttctttaaggattttttttacttatcctctgttat

21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgat ccgtaccgtaatttagcttagatttggatttaaaggatttagattga

22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtacgtaccgtacgctaccgttac cggattccggaaagccgattaaggaccgatcgaaaggg

23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggttta gcttcccgggatttagggcccggatggctgggaccc

24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcatt gttctttattgggacccaagttcgacttttacgatttagttttgaccgt

25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattag gcaaaagctgacgggcaattgcaatttaggcttaggcca

26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccag tttcgcagctcagttttaacgcgggatctttagcttcaagctttttac

27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatg ccaaaggacgctggtttagccagtccgttaaggcttag

28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaa aatttagacgttagggcttatcagttatggattaatttagcttattttcga

29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggcc atttcggtttagggagggccgggacgcgttagggc

30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgtta gctgacgctgaacgctaaacagtattagctgatgactcgta

31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgct agctagcaatttattatccgtattaggcttaccgtaggtttagcgt

32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggatta aattcgttgtcagtcgctcttgggtttagtcattcccaaaagg

33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctga cgtttagctaggaatttatgctgacgtagcgatcgactttagcac

34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagc gtaggctgacgctaggcttaggttggaacccggaaa

35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccac aggataaaagttaagggaccggtaagtcgcggtagcc

36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgc aattcgcaaaagtccccagctttagccccagagtcgacg

37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcc caaaggaggcccaccgggtagatgccasagtgcaccgt

38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgt tacgatttacgtataatttgaccttattttggacactttagtttgggttac

39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgt ttgcagctaccgtttaccgtacgttgcaagtcaaatccat

https://www.sodocs.net/doc/8610083518.html,attagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggt ttacctttgaaatttttggactagcttaccctggatttaacggccagttt

二、问题分析

如果将每一个DNA 序列都看作样本,那么该问题就进一步提炼成一个纯粹的数学问题:设有两个总体(类)1G 和2G ,其分布特征(来自各个总体的样本)已知,对给定的新品X ,

我们需要判断其属于哪个总体(类)。

对于上面的数学问题,可以用很多成熟的方法来解决,例如:

(1)BP 神经网络;

(2)聚类分析;

(3)判别分析;等等。

如何选取方法是建模过程中需要解决的另外一个问题:BP 神经网络是人工神经网络的一种,它通过对训练样本的学习,提取样本的隐含信息,进而对新样本的类别进行预测。BP 神经网络可以用以解决上面的DNA 序列分类问题,但是,如何提取特征、如何提高网络的训练效率、如何提高网络的容错能力、如何建立网络结构是能否成功解决DNA 序列分类问题的关键所在;聚类分析和判别分析都是多元统计分析中的经典方法,都可以用来将对象(或观测值)分成不同的集合或类别,但是,聚类分析更侧重于“探索”对象(或观测值)的自然分组方式,而判别分析则侧重于将未知类别的对象(或观测值)“归结”(或者说,分配)到已知类别中。显然,判别分析更适合用来解决上面的DNA 序列分类问题。

三、问题的求解

这里,我们将根据多元统计分析的知识建立判别分析模型来求解DNA 序列的分类问题。 首先,需要提取每条序列的所蕴含的特征——因为将序列的全部信息都作为指标(因素)

来建立判别模型是不可能的。

A.特征的提取

DNA 序列中所蕴含的信息是非常丰富的,因此,如何提取特征、提取什么特征是一个非常困难的问题——这个问题涉及到生物学的知识,此处将不深入展开讨论。我们考虑采用序列中4个碱基A ,T ,C ,G 的含量百分比作为DNA 序列的特征。

为了便于讨论,我们用a x 表示碱基A 在序列中所占的百分比;t x 表示碱基T 在序列中

所占的百分比;c x 表示碱基C 在序列中所占的百分比;g x 表示碱基G 在序列中所占的百分

比。因为1a t c g x x x x +++=,因此a x 、t x 、c x 和g x 中只有三个变量是独立的。不失一

般性,我们选取a x 、t x 和c x 为指标,以(,,)T i a t c X x x x =表示第i 个DNA 序列的特征向量,

换句话说,(,,)T i a t c X x x x = “完全”代表第i 个DNA 序列。

正如前面第二部分中所分析的:在此DNA 序列分类问题中,共有两个已知的总体(类)

1G (A 类)和2G (B 类)

,而且,训练样本共有20n =个,其中,前10个样本(记为1210,,,X X X )属于总体1G (类);后 10个样本(记为111220,,,X X X )属于总体2G (类)。需要解决的问题是:对给定的新样品X ,我们需要判断其属于哪个总体(类)。

B.建立判别模型

这里分别建立距离判别和费希尔(Fisher )判别模型。

(1)距离判别模型

在距离判别模型中,首先需要估计总体(类1G )和2G 的均值(1,2)i i μ=和协方差阵

(1,2)i i ∑=,这儿可以得到均值(1,2)i i μ=和协方差阵(1,2)i i ∑=的无偏估计。然后,计

算样本X 到总体(类)1G 和2G 的马氏距离211111(,)()()T d X G X X μμ-=-∑-和

21

2222(,)()()T d X G X X μμ-=-∑-。 根据判别准则(1),可得:

若2212(,)(,)d X G d X G ≤,则判定X 为A 类;

若2212(,)(,)d X G d X G >,则判定X 为B 类。

(2)费希尔判别模型

首先,确定判别函数123a t c y a x a x a x =++,利用费希尔(Fisher)判别准则,可以求出

1230.3365,0.087,0.9377a a a ==-=

确定了判别函数,就可以根据费希尔(Fisher)判别准则(9)式,判断新的DNA 序列的类别问题了。

C.模型求解和软件实现

判别分析的计算机实现是非常简单的,运用Matlab和SPSS等软件都可以进行判别分析。经过计算,结果如下:

(1)距离判别:运用上面算法对已知类别的训练样本进行判定,结果为:

A类:1,2,3,5,6,7,8,9,10

B类:4,11,12,13,14,15,16,17,18,19,20

只有第4个样本发生了误判,故正确率为95%。

运用上面算法对21-40进行分类,结果为

A类:22,23,25,27,29,30,32,33,34,35,36,37

B类:21,24,26,28,31,38,39,40

2)费希尔判别

运用上面算法对已知类别的训练本进行判定,结果为:

A类:1,2,3,5,6,7,8,9,10

B类:4,11,12,13,14,15,16,17,18,19,20

只有第4个样本发生了误判,故正确率为95%。

运用上面算法对21-40进行分类,结果为:

A类:22,23,25,27,29,34,35,36,37

B类:21,24,26,28,30,31,32,33,38,39,40

第二讲数学建模的基本方法和步骤

第二讲 数学建模的基本方法与步骤 数学建模面临的实际问题就是多种多样的,建模的目的不同、分析的方法不同、采用的数学工具不同,所得模型的类型也不同,我们不能指望归纳出若干条准则,适用于一切实际问题的数学建模方法。下面所谓基本方法不就是针对具体问题而就是从方法论的意义上讲的。(注:用最初等的方法解决,越受人尊重) 一 数学建模的基本方法 一般说来数学建模的方法大体上可分为机理分析与测试分析两种。 ????????????? 机理分析: 是根据对客观事物特性的认识,找出反映内部机理的数 量规律,建立的数学模型常有明确的物理或现实意义。 建模方法测试分析: 将研究对象看作一个“黑箱”(意思是内部机理看不清 楚),通过对测量数据的统计分析,找出与数据拟合最 好的模型。 面对于一个实际问题用哪一种方法建模,主要取决于人们对研究对象的了解程度与建模目的。如果掌握了一些内部机理的知识,模型也要求具有反映内部特征的物理意义,建模就应以机理分析为主。而如果对象的内部机理规律基本上不清楚,模型也不需要反映内部特征,那么可以用测试分析。对于许多实际问题也常常将两种方法结合起来,用机理分析建立模型结构,用测试分析确定模型的参数。 二 数学建模的一般步骤 建模要经过哪些步骤并没有一定的模式,通常与问题性质与建模的目的等有关。下面给出建模的一般步骤,如图1、2所示。 ⑴ 模型准备:了解实际背景,明确建模目的,搜索必要信息,弄清对象的主要特征,形成一个比较清晰的“问题”(即问题的提出)。情况明才能方法对,在这个阶段要深入调查研究,虚心向实际工作者请教,尽量掌握第一手资料。

⑵模型假设:根据对象的特征与建模目的,抓住问题的本质,忽略次要因素,作出必要的、合理的简化假设。对于建模的成败这就是非常重要与困难的一步。假设不合理或太简单,会导致错误的或无用的模型;假设作得过分详细,试图把复杂对象的众多因素都考虑进去,会使您很难或无法继续下一步的工作。常常需要在合理与简化之间作出恰当的折衷,要不段积累经验,并注意培养与充分发挥对事物的洞察力与判断力。 ⑶模型的建立:根据假设,用数学的语言、符号描述对象的内在规律,得到一个数学结构。这里除了需要一些相关的专门知识外,还常常需要较为广阔的应用数学方面的知识,要善于发挥想象力,注意使用类比法,分析对象与熟悉的其她对象的共性,借用已有的数学模型。建模时还应遵循的一个原则就是尽量采用简单数学工具,因为您的模型总希望更多的人了解与使用,而不就是只供少数专家欣赏。 ⑷模型求解:使用各种数学方法、数学软件与计算机技术对模型求解。 ⑸模型分析:对求解结果进行数学上的分析,如对结果进行误差分析,分析模型对数据的稳定性或灵敏性等。 ⑹模型检验:把求解与分析结果翻译回到实际问题,与实际现象、数据进行比较,检验模型的合理性与适用性。如果结果与实际不符,问题常常出现在模型假设上,应该修改或补充假设,重新建模。这一步对于模型就是否真的有用就是非常关键的,要以严肃认真的态度对待。 ⑺模型应用:这与问题的性质、建模的目的以及最终结果有关,一般不属于本书讨论的范围。 应该指出,并不就是所有问题的建模都要经过这些步骤,有时各步骤之间的界限也不那么分明,建模时不要拘泥于形式上的按部就班。 三数学建模的全过程 数学建模的全过程可分为表述、求解、解释、验证几个阶段,并且通过这些阶段完成从现实对象到数学模型,再从数学模型回到现实对象的循环,如图1、3所示。 表述就是根据建模目的与信息将实际问题“翻译”成数学问题,即将现实问题“翻译”成抽象的数学问题,属于归纳法。数学模型的求解选择适当的数学方

数学建模题目及其答案

数学建模疾病的诊断 现要你给出疾病诊断的一种方法。 胃癌患者容易被误诊为萎缩性胃炎患者或非胃病者。从胃癌患者中抽取5人(编号为1-5),从萎缩性胃炎患者中抽取5人(编号为6-10),以及非胃病者 中抽取5人(编号为11-15),每人化验4项生化指标:血清铜蓝蛋白( X)、 1 蓝色反应( X)、尿吲哚乙酸(3X)、中性硫化物(4X)、测得数据如表1 2 所示: 表1. 从人体中化验出的生化指标 根据数据,试给出鉴别胃病的方法。

论文题目:胃病的诊断 摘要 在临床医学中,诊断试验是一种诊断疾病的重要方法。好的诊断试验方法将对临床诊断的正确性和疾病的治疗效果起重要影响。因此,对于不同疾病不断发现新的诊断试验方法是医学进步的重要标志。传统的诊断试验方法有生化检测、DNA检测和影像检测等方法。而本文则通过利用多元统计分析中的判别分析及SPSS软件的辅助较好地解决了临床医学中胃病鉴别的问题。在临床医学上,既提高了临床诊断的正确性,又对疾病的治疗效果起了重要效果,同时也减轻了病人的负担。 判别分析是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。 其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。 首先,由判别分析定义可知,只有当多个总体的特征具有显著的差异时,进行判别分析才有意义,且总体间差异越大,才会使误判率越小。因此在进行判别分析时,有必要对总体多元变量的均值进行是否不等的显著性检验。 其次,利用判别分析中的费歇判别和贝叶斯判别进行判别函数的建立。 最后,利用所建立的判别函数进行回判并测得其误判率,以及对其修正。 本文利用SPSS软件实现了对总体间给类变量的均值是否不等的显著性检验并根据样本建立了相应的费歇判别函数和贝叶斯判别函数,最后进行了回判并测得了误判率,从而获得了在临床诊断中模型,给临床上的诊断试验提供了新方法和新建议。 关键词:判别分析;判别函数;Fisher判别;Bayes判别 一问题的提出 在传统的胃病诊断中,胃癌患者容易被误诊为萎缩性胃炎患者或非胃病患者,为了提高医学上诊断的准确性,也为了减少因误诊而造成的病人死亡率,必须要找出一种最准确最有效的诊断方法。为诊断疾病,必须从人体中提取4项生化指标进行化验,即血清铜蓝蛋白、蓝色反应、尿吲哚乙酸、中性硫化物。但是,从人体中化验出的生化指标,必须要确定一个精准的指标来判断疾病所属的类型。设想,使用判别分析法,利用SPSS 软件对各个变量进行系统的分析,使该问题得到有效地解决。

数学建模竞赛题目

西安科技大学第二届数学建模竞赛题目 A题:垃圾分类处理与清运方案设计 垃圾分类化收集与处理是有利于减少垃圾的产生,有益于环境保护,同时也有利于资源回收与再利用的城市绿色工程。在发达国家普遍实现了垃圾分类化,随着国民经济发展与城市化进程加快,我国大城市的垃圾分类化已经提到日程上来。2010年5月国家发改委、住房和城乡建设部、环境保护部、农业部联合印发了《关于组织开展城市餐厨废弃物资源化利用和无害化处理试点工作的通知》,并且在北京、上海、重庆和深圳都取得一定成果,但是许多问题仍然是垃圾分类化进程中需要深入研究的。 在深圳,垃圾分为四类:橱余垃圾、可回收垃圾、有害垃圾和其他不可回收垃圾,这种分类顾名思义不难理解。其中对于居民垃圾,基本的分类处理流程如下:

在垃圾分类收集与处理中,不同类的垃圾有不同的处理方式,简述如下:1)橱余垃圾可以使用脱水干燥处理装置,处理后的干物质运送饲料加工厂做原料。不同处理规模的设备成本和运行成本(分大型和小型)见附录1说明。2)可回收垃圾将收集后分类再利用。 3)有害垃圾,运送到固废处理中心集中处理。 4)其他不可回收垃圾将运送到填埋场或焚烧场处理。 所有垃圾将从小区运送到附近的转运站,再运送到少数几个垃圾处理中心。显然,1)和2)两项中,经过处理,回收和利用,产生经济效益,而3)和4)只有消耗处理费用,不产生经济效益。 本项研究课题旨在为深圳市的垃圾分类化进程作出贡献。为此请你们运用数学建模方法对深圳市南山区的分类化垃圾的实现做一些研究,具体的研究目标是: 1)假定现有垃圾转运站规模与位置不变条件下,给出大、小型设备(橱余垃圾)的分布设计,同时在目前的运输装备条件下给出清运路线的具体方案。以期达到最佳经济效益和环保效果。 2)假设转运站允许重新设计,请为问题1)的目标重新设计。 仅仅为了查询方便,在题目附录2所指出的网页中,给出了深圳市南山区所有小区的相关资料,同时给出了现有垃圾处理的数据和转运站的位置。其他所需数据资料自行解决。 附录1 1)大型厨余垃圾处理设备(如南山餐厨垃圾综合利用项目,处理能力为200吨/日,投资额约为4500万元,运行成本为150元/吨。小型餐厨垃圾处理机,处理能力为200-300公斤/日,投资额约为28万元,运行成本为200元/吨。橱余垃圾处理后产物价格在1000-1500元/吨。 2)四类垃圾的平均比例 橱余垃圾:可回收垃圾:有害垃圾:其他不可回收垃圾比例约为4:2:1:3。可回收垃圾划分为纸类、塑料、玻璃、金属四大类,大概比例分别是:55%、35%、6%、4%。纸类、塑料、玻璃、金属四类的废品回收价格是每公斤:1元、2.5元、0.5元、2.5元。

建立数学建模案例分析

§15.4锁具装箱问题 [学习目标] 1.能表述锁具装箱问题的分析过程; 2.能表述模型的建立方法; 3.会利用排列组合来计算古典概型; 4.会利用Mathematica求解锁具装箱问题。 一、问题 某厂生产一种弹子锁具,每个锁具的钥匙有5个槽,每个槽的高度从{1,2,3,4,5,6}6个数(单位从略)中任取一数。由于工艺及其它原因,制造锁具时对5个槽的高度有两个要求:一是至少有3个不同的数;二是相邻两槽的高度之差不能为5。满足上述两个条件制造出来的所有互不相同的锁具称为一批。销售部门在一批锁具中随意地抽取,每60个装一箱出售。 从顾客的利益出发,自然希望在每批锁具中不能互开(“一把钥匙开一把锁”)。但是,在当前工艺条件下,对于同一批中两个锁具是否能够互开,有以下实验结果:若二者相对应的5个槽的高度中有4个相同,另一个槽的高度差为1,则可能互开;在其它情况下,不可能互开。 团体顾客往往购买几箱到几十箱,他们会抱怨购得的锁具中出现互开的情形。现请回答以下问题: 1.每批锁具有多少个,能装多少箱? 2.按照原来的装箱方案,如何定量地衡量团体顾客抱怨互开的程度(试对购买一、二箱者给出具体结果)。 二、问题分析与建立模型 因为弹子锁具的钥匙有5个槽,每个槽的高度从{1,2,3,4,5,6}这6个数中任取一数,且5个槽的高度必须满足两个条件:至少有3个不同的数;相邻两槽的高度之差不能为5。所以我们在求一批锁具的总数时,应把问题化为三种情况,即5个槽的高度由5个不同数字组成、由4个不同数字组成、由3个不同数字组成,分别算出各种情况的锁具个数,然后相加便得到一批锁具的总个数。在分别求这三种情况锁具个数的时候,先求出满足第1个条件的锁具个数再减去不满足第2个条件的锁具个数。在求这三种情况锁具个数的时候,主要依靠排列组合的不尽相异元素的全排列公式。 下面用一个5元数组来表示一个锁具: Key=(h1,h2,h3,h4,h5) 其中h i表示第i个槽的高度,i=1,2,3,4,5。此5元数组表示一把锁,应满足下述条件: 条件1:h i∈{1,2,3,4,5,6},i = 1,2,3,4,5。

第1章 数学建模与误差分析

第1章数学建模与误差分析 1.1 数学与科学计算 数学是科学之母,科学技术离不开数学,它通过建立数学模型与数学产生紧密联系,数学又以各种形式应用于科学技术各领域。数学擅长处理各种复杂的依赖关系,精细刻画量的变化以及可能性的评估。它可以帮助人们探讨原因、量化过程、控制风险、优化管理、合理预测。近几十年来由于计算机及科学技术的快速发展,求解各种数学问题的数值方法即计算数学也越来越多地应用于科学技术各领域,相关交叉学科分支纷纷兴起,如计算力学、计算物理、计算化学、计算生物、计算经济学等。 科学计算是指利用计算机来完成科学研究和工程技术中提出的数学问题的计算,是一种使用计算机解释和预测实验中难以验证的、复杂现象的方法。科学计算是伴随着电子计算机的出现而迅速发展并获得广泛应用的新兴交叉学科,是数学及计算机应用于高科技领域的必不可少的纽带和工具。科学计算涉及数学的各分支,研究它们适合于计算机编程的数值计算方法是计算数学的任务,它是各种计算性学科的联系纽带和共性基础,兼有基础性和应用性的数学学科。它面向的是数学问题本身而不是具体的物理模型,但它又是各计算学科共同的基础。 随着计算机技术的飞速发展,科学计算在工程技术中发挥着愈来愈大的作用,已成为继科学实验和理论研究之后科学研究的第三种方法。在实际应用中所建立的数学模型其完备形式往往不能方便地求出精确解,于是只能转化为简化模型,如将复杂的非线性模型忽略一些因素而简化为线性模型,但这样做往往不能满足精度要求。因此,目前使用数值方法来直接求解较少简化的模型,可以得到满足精度要求的结果,使科学计算发挥更大作用。了解和掌握科学计算的基本方法、数学建模方法已成为科技人才必需的技能。因此,科学计算与数学建模的基本知识和方法是工程技术人才必备的数学素质。 1.2 数学建模及其重要意义 数学,作为一门研究现实世界数量关系和空间形式的科学,在它产生和发展的历史长河中,一直是和人们生活的实际需要密切相关。用数学方法解决工程实际和科学技术中的具体问题时,首先必须将具体问题抽象为数学问题,即建立起能描述并等价代替该实际问题的数学模型,然后将建立起的数学模型,利用数学理论和计算技术进行推演、论证和计算,得到欲求解问题的解析解或数值解,最后用求得的解析解和数值解来解决实际问题。本章主要介绍数学建模基本过程和求解数学问题数值方法的误差传播分析。 1.2.1 数学建模的过程 数学建模过程就是从现实对象到数学模型,再从数学模型回到现实对象的循环,一般通过表述、求解、解释、验证几个阶段完成。数学建模过程如图1.2.1所示,数学模型求解方法可分为解析法和数值方法,如图1.2.2所示。 表述是将现实问题“翻译”成抽象的数学问题,属于归纳。数学模型的求解方法则属于演绎。归纳是依据个别现象推出一般规律;演绎是按照普遍原理考察特定对象,导出结论。演绎利用严格的逻辑推理,对解释现象做出科学预见,具有重要意义,但是它要以归纳的结论作为公理化形式的前提,只有在这个前提下

数学建模案例分析--对策与决策方法建模6决策树法

§6 决策树法 对较为复杂的决策问题,特别是需要做多个阶段决策的问题,最常用的方法是决策树法。决策树法是把某个决策问题未来发展情况的可能性和可能结果所做的预测用树状图画出来。其步骤如下: 1、用方框表示决策点。从决策点画出若干条直线或折线,每条线代表一个行动方案,这样的直线或折线称为方案枝。 2、在各方案枝的末端画一个园圈,称为状态点,从状态点引出若干直线或折线,每条线表示一个状态,在线的旁边标出每个状态的概率,称为概率枝。 3、把各方案在各个状态下的损益期望值算出标记在概率枝的末端。 4、把计算得到的每个方案的损益期望值标在状态点上,然后通过比较,选出损益期望值最小的方案为最优方案。 例1某厂准备生产一种新产品,产量可以在三种水平n1、n2、n3中作决策。该产品在市场上的销售情况可分为畅销、一般和滞销三种情况,分别为S1、S2、S3。通过调查,预测市场处于这三种情况的概率分别为0.5、0.3、0.2。三种决策在各种不同市场情况下的利润见下表: 表1 基于各种决策的各种市场情况的利润表(万元) 我们可以计算每种决策下利润的期望值: 实行在水平n1下生产的利润的期望值为:90×0.5+30×0.3-60×0.2=42 实行在水平n2下生产的利润的期望值为:60×0.5+50×0.3-10×0.2=43 实行在水平n3下生产的利润的期望值为:10×0.5+9×0.3-6×0.2=6.5 由于在水平n2下生产利润的期望值最大,因而应选择产量水平n2生产。 可以应用决策树帮助解决这样的决策问题,把各种决策和情况画在图1上: 图1

图中的方框(□)称为决策点,圆圈(○)称为状态点,从方框出发的线段称为对策分支,表示可供选择的不同对策。在圆圈下面的线段称为概率分支,表示在此种对策下可能出现的各种情况。在概率分支上注明了该情况出现的概率。在每一个概率分支的末端注明了对应对策和对应情况下的收益(利润)。在计算时,我们把相应的期望值写在相应的状态点旁边,再由比较大小后选择最优决策,在图上用∥表示舍弃非最优的对策,并在决策点上注明最优决策所对应的期望利润。 图2 利用决策树还可以解决多阶段的决策问题。 例2 某公司在开发一种新产品前通过调查推知,该产品未来的销售情况分前三年和后三年两种情况。因此生产该产品有两种可供选择的方案:建造大厂和建造小厂。如果建造大厂,投资费用5000万元,当产品畅销时,每年可获利2000万元,当产品滞销时,每年要亏损120万元。如果建造小厂,投资费用1000万元,当产品畅销时,每年可获利300万元,当产品滞销时,每年仍可获利150万元。若产品畅销可考虑在后三年再扩建,扩建投资需2000万元,随后三年每年可获利1000万元;也可不再扩建。预测这六年该产品畅销的概率为0.6,滞销的概率为0.4。试分析该公司开发新产品应如何决策? 根据问题的各种情况可以画出决策树如下:这是一个两阶段的决策问题。注意到图中有两个决策点,反映建小厂的方案中可以分成前三年和后三年两个阶段,并在后三年还要做出一次决策。 图3 把各种数据填到图适当的位置后,由后向前计算获利的期望值。由图可见应采用决策:建造大厂。 500 900 1000*3=3000 300*3=900 6.5

《数值分析与数学建模》

2007-2008学年第一学期《数值分析与数学建模》课程考核题目 说明: 本次考核题目共有五个部分,请从每一部分中任选一题作答。选择时请注意:每题难度不同分值也有所不同。 完成时间:2007-2008学年第二学期开学第一周前三个工作日,过期无效。 答卷提交方式:手写稿或打印稿请直接交到5号楼202室;电子稿可以发送Email 至 tzl99@https://www.sodocs.net/doc/8610083518.html, 。 要求: (1)标清题号; (2)列出关键的数学模型及模型中各参数的含义; (3)可利用Matalb 软件中相关库函数直接求解,请注明你所用到的关键函数及其作用; (4)也可以在建立模型之后,自行选择数值分析课程中介绍的合适算法并利用Matlab 软件编程实现;如此,你将获得额外加分; (5)对得到的结果加以适当评价,以及对问题本身提出相应的思考与改进,也将获得额外加分; (6)鼓励相互讨论,不允许相互抄袭;雷同(绝大部分相同)答卷按无效答卷处理,不予记录成绩;若某些题目解答完全相同,则该题不得分。 第一部分 说明: Ex1、Ex2每题10分;Ex3~Ex6每题15分 Ex1:以定期存储为基础的储蓄账户的累积值可由“定期年金方程”确定, ]1)1[(-+= n i i P A ; 在这个方程中,A 是账户中的数额,P 是定期存储的数额,i 是n 个存储期间的每期利率。一个工程师想在20年内退休时储蓄账户上的数额达到750000美元,而为了达到这个目标他每个月能存1500美元。为实现他的储蓄值目标,最小利率应是多少?假定利息是月复利的。 Ex2:在固定的时期内需付抵押贷款的数额问题和下面的称为“普通年金方程”的公式有关, ]) 1(1[n i i P A -+-= 在这个方程中,A 是抵押贷款的数额,P 是每期付款的数额,i 是n 个付款期的每期利率。假设需要30年房屋按揭贷款135000美元,又假设借款人每月至多能付1000美元房款。借款人能付得起的最大利率是多少? Ex3:病人用的药在血流中产生的浓度由ml mg e t A t c t 3 ) (-=给出(注射了A 单位药物后的t 小时以后血液中药物的浓度)。病人能够承受的药物最大安全浓度是1 ml mg 。 (1)分别利用微积分知识以及Matlab 软件描绘出浓度随时间变化的图形; (2)应该注射多大的量来达到最大的安全浓度?什么时候达到这个最大的安全浓度? (3)在浓度下降到0.25ml mg 后,要给病人注射这种药的附加的药量。确定何时应进行第二次注射,精确到分钟; (4)假设连续注射的浓度是可加的,又假设开始注射的75%的药量仍在第二次注射中起作用。什么时候可以进行第三次注射?

数学建模案例分析

案例分析1: 自行车外胎的使用寿命 问题: 目前,自行车在我国是一种可缺少的交通工具。它小巧、灵活、方便、易学,而且价格适中,给广大居民带来了不小的益处。但是,自行车也有令人头痛的地方,最常见的问题莫过于扎胎了。扎胎的原因有很多,但相当一部分是由于外胎磨损,致使一些玻璃碴、小石子很容易侵入、扎破内胎。为了减少不必要的麻烦,如何估计自行车外胎的寿命,及时更换? 分析: 分析角度:由于题目里未明确指出我们是应从厂家角度,还是应从用户角度来考虑这个问题,因此需要我们自己做出合理判断。若从厂家角度,我们面对的应当是一大批自行车外胎的平均寿命的估计。这样的估计要求一定精确度和相对明确的使用环境;而从用户角度来说,面对的仅是个人的一辆车,不需要很高的精确度,这样的寿命估计更简单,易于随时了解,下面仅从用户角度进行分析。 产品的使用者需要了解产品的寿命,是基于安全性及更换的费用来考虑的。我们将这两个标准作为主要标准来分析,首先值得注意的两个关键性问题是如何定义寿命、何时为寿命的终止。寿命的定义要做到科学,直观,有可比性,在航空工业中航天飞机的使用寿命是用重复使用的次数来衡量,而工厂机器设备的寿命则以连续工作的时间来定义。本题外胎的寿命亦可用时间来表征,但由于外胎的寿命直接与其磨损速度相关;而磨损速度又与使用频率及行驶速度相互联系,致使外胎的寿命不一定与使用时间成正比(这种非正比关系使我们不能拿一辆—天跑200公里的自行车与一天只跑1公里的自行车进行寿命比较),降低了可比性。如换成自行车的路程寿命来比较,就好得多。产品寿命是在安全性和更换费用相互制约下达到的一个点,在这个点上,外胎的安全系数降到用户不可接受的最低值,更换费用(寿命越长,在一定意义上更换费用越低)也达到了最大限度的节省。 弄清了上面两个问题后,我们继续明确建立模型需要解决哪些问题及建立模型的重点难点。 自行车使用过程中,一来影响因素多,二来这些因素之间彼此相关,十分复杂,要做到比较准确地估计使用寿命,不但要对外胎的性能有相当的了解,而且对使用环境更不能忽视。当然我们由于是站在用户角度上来考虑的,相对地就可忽略一些次要的影响因素。 这样的数学模型面对着两个主要问题。一、自行车使用寿命与外胎厚度的关系,二、外胎能够抵御小石子破坏作用的最小厚度。后者可处理得相对简略些(如只考虑一块具有一般特征的小石子对外胎的破坏作用),而重点(也是难点)是第一个问题。车重、人重、轮胎性质(力学的、热学的、甚至化学的)和自行车使用频率等都左右着它们的关系。这么多相关因素,不必一一都加以考虑(用户是不会在意这么多的),有些因素,可以先不考虑,在模型的改进部分再作修改,采取逐步深入的方法,如:摩擦损耗有滑动摩擦和滚动摩擦损耗两种,由于滚动摩擦占用的时间(或路程)显然占绝对优势,因此可重点考虑。但滑动摩擦造成的一次损坏又比滚动摩擦大,在刹车使用过频的情况下,就不能不考虑了。 最后,需对得出的结果用简单清晰的文字进行说明,以供用户参考。 案例分析2:城市商业中心最优位置分析 问题: 城市商业中心是城市的基本构成要素之一。它的形成是一个复杂的定位过程。商业中心的选址涉及到各种因素制约,但其中交通条件是很重要的因素之一。即商业中心应位于城市“中心”,如果太偏离这一位置,极有可能在城市“中心”地带又形成一个商业区,造成重复建设。 某市对老商业中心进行改建规划,使居民到商业中心最方便。如果你是规划的策划者,如何建立一个数学模型来解决这个问题。

数学建模方法模型

数学建模方法模型 一、统计学方法 1 多元回归 1、方法概述: 在研究变量之间的相互影响关系模型时候用到。具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。 2、分类 分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可以转化为 y=u u=lnx 来解决;所以这里主要说明多元线性回归应该注意的问题。 3、注意事项 在做回归的时候,一定要注意两件事: (1) 回归方程的显著性检验(可以通过 sas 和 spss 来解决) (2) 回归系数的显著性检验(可以通过 sas 和 spss 来解决) 检验是很多学生在建模中不注意的地方,好的检验结果可以体现出你模型的优劣,是完整论文的体现,所以这点大家一定要注意。 4、使用步骤: (1)根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间的大致关系; (2)选取适当的回归方程; (3)拟合回归参数; (4)回归方程显著性检验及回归系数显著性检验 (5)进行后继研究(如:预测等)

2 聚类分析 1、方法概述 该方法说的通俗一点就是,将 n个样本,通过适当的方法(选取方法很多,大家可以自行查找,可以在数据挖掘类的书籍中查找到,这里不再阐述)选取 m 聚类中心,通过研究各样本和各个聚类中心的距离 Xij,选择适当的聚类标准,通常利用最小距离法(一个样本归于一个类也就意味着,该样本距离该类对应的中心距离最近)来聚类,从而可以得到聚类结果,如果利用sas 软件或者 spss 软件来做聚类分析,就可以得到相应的动态聚类图。这种模型的的特点是直观,容易理解。 2、分类 聚类有两种类型: (1) Q型聚类:即对样本聚类; (2) R型聚类:即对变量聚类; 通常聚类中衡量标准的选取有两种: (1) 相似系数法 (2) 距离法 聚类方法: (1) 最短距离法 (2) 最长距离法 (3) 中间距离法 (4) 重心法 (5) 类平均法 (6) 可变类平均法 (7) 可变法

数学建模及全国历年竞赛题目

数学建模及全国历年竞赛题目 (2010-09-28 21:58:01) 标签: 分类:专业教学 数学建模 应用数学模型 教育 一、数学建模的涵 (一)数学建模的概念 数学建模是一种数学的思考方法,是运用数学的语言和方法,通过抽象、简化建立能近似刻画并"解决"实际问题的一种强有力的数学手段。使用数学语言描述的事物就称为数学模型,这个建立数学模型的全过程就称为数学建模。(二)应用数学模型 应用数学去解决各类实际问题,把错综复杂的实际问题简化、抽象为合理的数学结构。通过调查、收集数据资料,观察和研究实际对象的固有特征和在规律,抓住问题的主要矛盾,建立起反映实际问题的数量关系,然后利用数学的理论和方法去分析和解决问题。需要诸如数理统计、最优化、图论、微分方程、计算方法、神经网络、层次分析法、模糊数学,数学软件包如 Mathematica,Matlab,Lingo,Spss,Mapple的使用,甚至排版软件等知识的基础。

(三)数学建模的特点 数学建模具有难度大、涉及面广、形式灵活,对教师和学生要求高等特点;数学建模的教学本身是一个不断探索、不断创新、不断完善和提高的过程。(四)数学建模的指导思想 数学建模的指导思想就是:以实验室为基础、以学生为中心、以问题为主线、以培养能力为目标来组织教学工作。 (五)数学建模的意义 数学建模是联系数学与实际问题的桥梁,是数学在各个领械广泛应用的媒介,是数学科学技术转化的主要途径。通过教学使学生了解利用数学理论和方法去分析和解决问题的全过程,提高他们分析问题和解决问题的能力;提高他们学习数学的兴趣和应用数学的意识与能力,使他们在以后的工作中能经常性地想到用数学去解决问题,提高他们尽量利用计算机软件及当代高新科技成果的意识,能将数学、计算机有机地结合起来去解决实际问题。 1.培养创新意识和创造能力; 2.训练快速获取信息和资料的能力; 3.锻炼快速了解和掌握新知识的技能; 4.培养团队合作意识和团队合作精神; 5.增强写作技能和排版技术;

数学建模挑战赛真题

数学建模挑战赛真题--垃圾焚烧厂布袋式除尘系统运行稳定性分析 今天,以焚烧方法处理生活垃圾已是我国社会维持可持续发展的必由之路。然而,随着社会对垃圾焚烧技术了解的逐步深入,民众对垃圾焚烧排放污染问题的担忧与日俱增,甚至是最新版的污染排放国标都难以满足民众对二恶英等剧毒物质排放的控制要求(例如国标允许焚烧炉每年有60小时的故障排放时间,而对于焚烧厂附近的居民来说这是难以接受的)。事实上,许多垃圾焚烧厂都存在虽然排放达标,但却仍然扰民的现象。国标控制排放量与民众环保诉求之间的落差,已成为阻碍新建垃圾焚烧厂选址落地的重要因素。而阻碍国标进一步提升的主要问题还是现行垃圾焚烧除尘工艺存在缺乏持续稳定性等重大缺陷。另外,在各地不得不建设大型焚烧厂集中处理垃圾的情况下,采用现行除尘工艺的大型焚烧厂即便其排放浓度不超标,却仍然存在排放总量限额超标的问题,也会给当地的环境带来重大的恶化影响。 总之,现行垃圾焚烧除尘工艺不能持续稳定运行的缺陷,是致使社会公众对垃圾焚烧产生危害疑虑的主要原因。因此,量化分析布袋除尘器运行稳定性问题,不仅能深入揭示现行垃圾焚烧烟气处理技术缺陷以期促进除尘技术进步,同时也能对优化焚烧工况控制及运行维护规程有所帮助。 附件1是某垃圾焚烧发电厂布袋式烟气处理系统的部分实际运行数据,从中可以看出,布袋除尘工艺环节对整个袋式烟气处理系统的运行稳定性有决定性影响。请收集资料,综合研究现行垃圾焚烧发电厂袋式除尘系统影响烟尘排放量的各项因素,构建数学模型分析袋式除尘系统运行稳定性问题,并分析其运行稳定性对周边环境烟尘排放总量的影响。基于你的模型请回答下述问题: 1、如果给定焚烧厂周边范围单位面积排放总量限额(地区总量/地区面积),在考虑除尘系统稳定性因素的前提下,试分析讨论焚烧厂扩建规模的环境允许上限是多少?并基于你的分析结果,向政府提出环境保护综合监测建议方案; 2、如果采用一种能够完全稳定运行、且除尘效果超过布袋除尘工艺的新型超净除尘替代工艺,你的除尘模型稳定性能提升多少?

数学建模方法和步骤

数学建模的主要步骤: 第一、模型准备 首先要了解问题的实际背景,明确建模目的,搜集必需的各种信息,尽量弄清对象的特征. 第二、模型假设 根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建模至关重要的一步.如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为,所以高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应尽量使问题线性化、均匀化. 第三、模型构成 根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其它数学结构.这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱大国,别有洞天.不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此工具愈简单愈有价值. 第四、模型求解 可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,特别是计算机技术.一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重. 第五、模型分析 对模型解答进行数学上的分析."横看成岭侧成峰,远近高低各不?quot;,能否对模型结果作出细致精当的分析,决定了你的模型能否达到更高的档次.还要记住,不论那种情况都需进行误差分析,数据稳定性分析. 数学建模采用的主要方法有: (一)、机理分析法:根据对客观事物特性的认识从基本物理定律以及系统的结构数据来推导出模 型. 1、比例分析法:建立变量之间函数关系的最基本最常用的方法. 2、代数方法:求解离散问题(离散的数据、符号、图形)的主要方法. 3、逻辑方法:是数学理论研究的重要方法,对社会学和经济学等领域的实际问题,在决策,对策等学科中得到广泛应用. 4、常微分方程:解决两个变量之间的变化规律,关键是建立“瞬时变化率”的表达式. 5、偏微分方程:解决因变量与两个以上自变量之间的变化规律. (二)、数据分析法:通过对量测数据的统计分析,找出与数据拟合最好的模型 1、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法. 2、时序分析法:处理的是动态的相关数据,又称为过程统计方法. 3、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法.

数学建模案例分析-- 插值与拟合方法建模1数据插值方法及应用

第十章 插值与拟合方法建模 在生产实际中,常常要处理由实验或测量所得到的一批离散数据,插值与拟合方法就是要通过这些数据去确定某一类已经函数的参数,或寻求某个近似函数使之与已知数据有较高的拟合精度。插值与拟合的方法很多,这里主要介绍线性插值方法、多项式插值方法和样条插值方法,以及最小二乘拟合方法在实际问题中的应用。相应的理论和算法是数值分析的内容,这里不作详细介绍,请参阅有关的书籍。 §1 数据插值方法及应用 在生产实践和科学研究中,常常有这样的问题:由实验或测量得到变量间的一批离散样点,要求由此建立变量之间的函数关系或得到样点之外的数据。与此有关的一类问题是当原始数据 ),(,),,(),,(1100n n y x y x y x 精度较高,要求确定一个初等函数)(x P y =(一般用多项式或分段 多项式函数)通过已知各数据点(节点),即n i x P y i i ,,1,0,)( ==,或要求得函数在另外一些点(插值点)处的数值,这便是插值问题。 1、分段线性插值 这是最通俗的一种方法,直观上就是将各数据点用折线连接起来。如果 b x x x a n =<<<= 10 那么分段线性插值公式为 n i x x x y x x x x y x x x x x P i i i i i i i i i i ,,2,1,,)(11 1 11 =≤<--+--= ----- 可以证明,当分点足够细时,分段线性插值是收敛的。其缺点是不能形成一条光滑曲线。 例1、已知欧洲一个国家的地图,为了算出它的国土面积,对地图作了如下测量:以由西向东方向为x 轴,由南向北方向为y 轴,选择方便的原点,并将从最西边界点到最东边界点在x 轴上的区间适当的分为若干段,在每个分点的y 方向测出南边界点和北边界点的y 坐标y1和y2,这样就得到下表的数据(单位:mm )。 根据地图的比例,18 mm 相当于40 km 。

统计学数学模型

一、多元回归 1、方法概述: 在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。 2、分类 分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可以转化为 y=u u=lnx 来解决;所以这里主要说明多元线性回归应该注意的问题。 3、注意事项 在做回归的时候,一定要注意两件事: (1)回归方程的显著性检验(可以通过sas和spss来解决)(2)回归系数的显著性检验(可以通过sas和spss来解决) 检验是很多学生在建模中不注意的地方,好的检验结果可以体现出你模型的优劣,是完整论文的体现,所以这点大家一定要注意。 4、使用步骤: (1)根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间的大致关系; (2)选取适当的回归方程; (3)拟合回归参数; (4)回归方程显著性检验及回归系数显著性检验

(5)进行后继研究(如:预测等)这种模型的的特点是直观,容易理解。 这体现在:动态聚类图可以很直观地体现出来!当然,这只是直观的一个方面! 二、聚类分析 聚类有两种类型: (1) Q型聚类:即对样本聚类;(2) R型聚类:即对变量聚类;聚类方法: (1)最短距离法(2)最长距离法(3)中间距离法(4)重心法(5)类平均法(6)可变类平均法(7)可变法(8)利差平均和法 在具体做题中,适当选取方法; 3、注意事项 在样本量比较大时,要得到聚类结果就显得不是很容易,这时需要根据背景知识和相关的其他方法辅助处理。还需要注意的是:如果总体样本的显著性差异不是特别大的时候,使用的时候也要注意!4、方法步骤 (1)首先把每个样本自成一类; (2)选取适当的衡量标准,得到衡量矩阵,比如说:距离矩阵或相似性矩阵,找到矩阵中最小的元素,将该元素对应的两个类归为一类, (4)重复第2步,直到只剩下一个类; 补充:聚类分析是一种无监督的分类,下面将介绍有监督的“分

数学建模结果分析

结果分析 综上所述,由模型求解可知,在满足模型条件的假设(4)的条件下,当所给阳性的先验概率0.3066p ≥时,在不分组的条件下每个人一次一次的检验可以使总次数最少;当所给0.29290.3066p ≤<时,进行一次检验比分两次组和不分组均可使总次数最少;当00.2929p <<时,分两次组总次数比分一次组总次数要少。 当p 固定时,为了是人群中总的检验次数最小,就需要确定每组中的人数k 。根据固定值p 的大小分类讨论: 当0.3066p ≥时,此时不需要分组,即1k =时可使检验次数最小; 当0.3066p <时,此时需要分组,要使人群总的检验次数最小,只需要使每个人的检验次数的期望值E ξ最小,通过引入与11k E q k ξ=-+ 变化趋势相同的连续性函数 )2(,11)(≥+-=x x q x f x ,对于一个给定的p ,可以求出函数(x)f 的极值,又由分析知'(x)f 是增函数,所以求出(x)f 的极值就是(x)f 的最小值的取值m x ,故取与m x 最相近的两个值(上取整和下取整),代入ξE ,然后比较两个函数值,找出较小的一个,以此类推,可以确定,每一个给定的p 要使人群中总的检验次数最小所对应的人数k 。 在0.3066p <中,当0.29290.3066p ≤<时,进行一次分组检验比进行两次分组检验和不分组检验可使检验次数最少;当00.2929p <<时,分两组比分一组总的检验次数少。 模型检验

当然这都是在假设(4)的前提下做出的,现举一例具体说明上述假设的合理性:设0.002p =时,经过上述计算可得,当23k =时可使在一次分组的情况下平均每人检验次数最小,为满足假设(4),可以取24k =(此时平均每人检验次数仅比23k =时多510-次,故在检验100000人时总次数才多一次,故可忽略),然后取112k =或更小(如16k =),此时一定可以做到分两次组比分一次组平均每人检验次数小。当然此时还可以继续求满足条件的第二次分组平均每人检验次数的最小值。 由于题给条件是人群数量很大,基本是健康人,先验概率p 很小,所以4

数学建模__SPSS_典型相关分析

典型相关分析 在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关性。典型相关分析就是测度两组变量之间相关程度的一种多元统计方法。 典型相关分析计算步骤 (一)根据分析目的建立原始矩阵 原始数据矩阵 ?? ????????? ???nq n n np n n q p q p y y y x x x y y y x x x y y y x x x 2 1 2 1 222212221 1121111211 (二)对原始数据进行标准化变化并计算相关系数矩阵 R = ?? ? ? ??22211211 R R R R 其中11R ,22R 分别为第一组变量和第二组变量的相关系数阵,12R = 21 R '为第一组变量和第二组变量的相关系数 (三)求典型相关系数和典型变量 计算矩阵=A 111-R 12R 122-R 21R 以及矩阵=B 122-R 21R 1 11-R 12R 的特征值和特征向量,分 别得典型相关系数和典型变量。 (四)检验各典型相关系数的显著性 第五节 利用SPSS 进行典型相关分析 第一步,录入原始数据,如下表:X1 X2 X3 X4 X5 分别代表多孩率、综合节育率、初中及以上受教育程度的人口比例、人均国民收入和城镇人口比例。

1、点击“Files→New→Syntax”打开如下对话框。 2、输入调用命令程序及定义典型相关分析变量组的命令。如图

输入时要注意“Canonical correlation.sps”程序所在的根目录,注意变量组的格式和空格。 第三步,执行程序。用光标选择这些命令,使其图黑,再点击运行键,即可得到所有典型相关分析结果。

数学建模各种分析报告方法

现代统计学 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 主成分分析和因子分析的区别 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,

相关主题