搜档网
当前位置:搜档网 › 数学建模dna序列分类模型终稿

数学建模dna序列分类模型终稿

数学建模dna序列分类模型终稿
数学建模dna序列分类模型终稿

DNA序列分类模型DNA序列分类模型

毕业设计(论文)原创性声明和使用授权说明

原创性声明

本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。

作者签名:日期:

指导教师签名:日期:

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。

作者签名:日期:

学位论文原创性声明

本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。

作者签名:日期:年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名:日期:年月日

导师签名:日期:年月日

注意事项

1.设计(论文)的内容包括:

1)封面(按教务处制定的标准封面格式制作)

2)原创性声明

3)中文摘要(300字左右)、关键词

4)外文摘要、关键词

5)目次页(附件不统一编入)

6)论文主体部分:引言(或绪论)、正文、结论

7)参考文献

8)致谢

9)附录(对论文支持必要时)

2.论文字数要求:理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。

3.附件包括:任务书、开题报告、外文译文、译文原文(复印件)。

4.文字、图表要求:

1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写

2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画

3)毕业论文须用A4单面打印,论文50页以上的双面打印

4)图表应绘制于无格子的页面上

5)软件工程类课题应有程序清单,并提供电子文档

5.装订顺序

1)设计(论文)

2)附件:按照任务书、开题报告、外文译文、译文原文(复印件)次序装订

3)其它

摘要

本文分析了已知类别的人工DNA序列的特征,建立了聚类分析延拓模型和马尔可夫模型,分别对未知类别的人工DNA序列和自然序列进行分类,根据分类效果选出了较优模型。

首先对数据进行预处理,得到人工DNA序列的单个碱基丰度和不同碱基丰度之比等特征量,进而分析A、B两类的差异,得到合适的特征判定条件对未知类别的DNA序列进行分类。计算人工DNA序列的特征量,给出各序列的统计数据。

其次用聚类分析延拓模型进行分类。用A、B两类具有明显差异的特征作为样品特征变量,得到欧式空间中表征编号1-20人工DNA序列的特征向量,计算两两之间的Lance和Williams距离进行相似性度量,逐步选择相似性较大的归为一类,同时不断更新类内的标准比较特征向量,对聚类方法进行延拓,最终得到类内差异小、类间差异大的A、B两类,建立了聚类分析延拓模型。再对选取的特征变量进行改进,提高模型的分类效果。最后,借助均值、方差和相关系数等参数对改进模型的分类效果进行分析。

再次用马尔可夫模型进行分类。将DNA序列看成是马尔可夫链,求出编号1-10和11-20人工DNA序列在已知当前碱基种类的条件下,下一个碱基出现任一种的概率,结果存入概率转移矩阵1和2,再利用矩阵1和2分别求出编号1-20中任一条DNA序列出现的概率,选择较大的一个作为该DNA序列的分类,建立马尔可夫模型。再进行与聚类分析延拓模型类似的改进和检验工作,然后对编号21-40人工DNA序列和182条自然序列进行分类,得到最终结果。

最后,用层次分析法综合评价模型一与模型二,选择聚类分析延拓模型作为最终模型,其分类结果作为最终结果,具体如下:

编号21-40人工DNA序列中属于A类的样品编号为:22,23,25,27,29,30,34,35,36,37,39;属于B类的样品编号为:21,24,26,28,31,32,33,38,40。

182条自然序列中,属于B类的样品编号为:7,10,12,22,23,24,26,28,30,34,43,48,50,54,57,65,75,76,80,84,85,86,92,98,103,107,110,114,116,119,121,122,123,127,128,129,130,131,137,138,140,142,143,144,146,151,156,159,161,162,163,166,168,170,173,174,175,179,180,181,182;其余为A类。

关键词DNA序列分类聚类分析延拓法Lance和Williams距离马尔可夫法

一、问题重述

1.1题目背景

(1)2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。

(2)这本“天书”是由4个字符A,T,C,G按一定顺序排成的无间隔的长约30亿的序列,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少。因此,破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。

(3)为解读这部“天书”,首先要研究DNA全序列具有什么结构,以及由这4个字符排成的看似随机的序列中隐藏着什么规律,这也是生物信息学最重要的课题。

1.2题目信息

(1)DNA序列分为编码区与非编码区。编码区是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。

(2)在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。

(3)利用统计的方法还发现序列的某些片段之间具有相关性。

这些发现说明DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列有十分重要的意义。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。

1.3题目要求

(1)有20个已知类别的人工制造的DNA序列(见附件1),其中序列标号1—10 为A类,11-20为B类。从中提取特征,构造分类方法,并用这些已知类别的序列,衡量所选分类方法是否足够好。

(2)用(1)中的分类方法对另外20个未标明类别的人工序列(见附件1,标号21—40)进行分类,根据分类效果对方法不断完善,将得到的最终结果用序号(按从小到大的顺序)标明它们的类别(A类或B类,无法分类的不写入)。

要求详细描述所选的分类方法,给出计算程序。若论文中部分地使用了现成的分类方法,应将方法名称准确注明。

(3)已知182个自然DNA序列(见附件2),它们都较长。同样用以上所选的分类方法对它们进行分类,并根据分类效果对方法不断完善,像(2)中一样给出最终的分类结果。

二、名词解释

1.编码区与非编码区:编码区是指DNA上编码蛋白质的序列片段,而非编码区不用于编码蛋白质。

2.聚类分析:由已知数据,计算各个观察个体或变量之间亲疏关系的统计量。再根据某种准则(最短距离法、最长距离法、中间距离法、重心法等),使同一

类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类的分类方法。其中,对样品所作的分类为Q-型聚类,对变量所作的分类为R-型聚类。

3.相似性度量:对数值型数据而言,两个个体的相似度是指它们在欧氏空间中互相邻近的程度;而对分类型数据而言,两个个体的相似度与它们取值相同的属性的个数有关。

4.样品:每个观察个体即每条DNA序列为一个样品。

5.样品变量:每个样品所具有的不同特征用不同的变量来表示,变量数等于特征数。

6.碱基丰度:每条DNA序列中碱基A、G、C或T出现的频率。

三、问题分析

DNA序列分类问题要求在对DNA序列的一些规律和结构有所了解的基础上,从20个已知类别的人工制造的DNA序列中提取特征,构造分类方法,并用所选择的分类方法对其余未知类别的20个人工制造的DNA序列以及182个自然DNA 序列进行分类。

3.1建模目标的分析

DNA序列分类是一个复杂的统计分析问题,数据量大,影响因素多,无法直接从20条已知类别的人工制造的DNA序列中提取出所有的有效特征,因此有必要对这20条DNA序列进行预处理。

观察并分析数据预处理结果,归纳总结出A类和B类的有效特征,将其表示成适当的数学对象,并选择适当的分类方法,建立普遍意义下数学模型,再用得到的模型对其余未知类别的20个人工制造的DNA序列以及182个自然DNA序列进行分类。

由题意,建立的数学模型应该保证分类结果具有以下特点:

(1)类别间差异尽量大;

(2)类别内差异尽量小;

(3)样品能够尽可能的落入A、B范围,且只能落入其中的一个。

3.2建模及求解方向

1.分析已知类别的DNA序列1-20的结构,提取出相应的特征。

主要的特征有:碱基的丰度、碱基或碱基序列的重复出现情况、碱基或碱基序列之间的相邻情况、不同碱基的丰度之比(如碱基A与碱基T的丰度之比)等。

2. 根据提取出的特征,选用合适的分类方法。

对数据进行预处理后,尝试以下方法建立模型:

(1)根据聚类分析法,建立模型一。

由题意,DNA序列分类属于对样品所做的分类,为Q-型聚类。首先引入样品变量,例如可选择碱基T的丰度、碱基G的丰度、碱基T与碱基G的丰度之比、碱基A与碱基T的丰度之比等。由已知数据,计算出每条已知类别的人工制造的DNA序列的各个样品变量值,存入向量中。

根据相似性度量原理,计算20个样品两两之间的Lance和Williams距离,选择相距最远的两个样品(假设为样品3和样品16)分别作为A类和B类,再分别以样品3和样品16为标准点,通过分别计算样品3和样品16与其余18个样品之间的Lance和Williams距离,找出与其相距最近的一个样品(假设为样品1和样品18)归为一类。此时,新的标准点变为样品1与样品3的中点、样

品16与样品18的中点。然后再以新的标准点为基准,分别找出与其相距最近的一个样品归为一类。逐步进行下去,直至20个样品被明显分成A、B两类。

(2)根据马尔可夫法,建立模型二。

以单个碱基为单位,分别统计编号1-10和编号11-20人工制造的已知类别的DNA序列中4种碱基出现的次数,再以相邻的两个碱基为单位(共16种组合情况),分别统计编号1-10和编号11-20的DNA序列中16种碱基对出现的次数。为满足大样本需求,将A类和B类中的10条DNA序列组合起来看作两个大样品,单个碱基或碱基对出现(不包括上一条链的末尾碱基与下一条链的初始碱基组合的情况)的次数为10条序列之和。

由条件概率的思想,分别求出A类和B类大样品中在已知当前碱基种类(可以为A、G、C、T中任何一个)的条件下,下一个碱基分别为A、G、C、T的概率,存入两个矩阵1和2中。对于任何一条给定的DNA序列,可将其看作一个已经发生的事件,说明该事件发生的概率比较大。用矩阵1和矩阵2分别求出这一事件发生(即形成当前DNA序列)的概率,若用矩阵1算出该编号的DNA序列出现的概率较大,则该编号的DNA序列属于A类,否则属于B类。

3.模型的初步检验与改进。

用编号1-20已知类别的序列,分别衡量模型一与模型二中所选方法是否足够好,不断改进,尽可能使1-20号DNA序列在所选分类方法下,所得结果与已知分类完全一致。改进时,对于聚类分析法,可以尝试改变样品变量的个数或者改变样品变量的组合方式;对于马尔可夫法,可以尝试引进中间变量,运用隐马尔可夫法求解。

4.模型的进一步检验与完善。

(1)用以上的得到的两种分类方法对编号20-40未知类别的人工序列、182个自然序列进行分类。

(2)通过计算样品方差、均值等比较两种分类方法得到的分类结果与建模目标——类别间差异尽量大、类别内差异尽量小、样品能够尽可能的落入A、B范围,且只能落入其中的一个——的接近程度。

(3)选择更接近建模目标的一种分类方法作为最终的分类方法,其分类结果即为最终结果。

四、基本假设

1.假设所给的DNA序列片段中没有断句和标点符号。

2.假设具有特殊碱基的DNA序列中,特殊碱基可以剔除,其影响可以忽略。

3.较长的182个自然序列与已知类别的20个样本序列具有共同的特征。

4.假设给定的DNA序列均是从全序列中随机截取出来的,无法确定序列的起始位, 无法从序列中辨认出氨基酸,所以,在对DNA 序列分类时,从碱基层次上进行分类, 而不是从氨基酸层次上分类。

五、定义与符号说明

n:各个样品中碱基i出现的数量,i为A、T、C或G

i

N:第i个样品的总碱基数目

i

F:各个样品中碱基i的丰度,i为A、T、C或G

i

i x :各个样品的第i 个特征变量

ij f :各个样品中碱基i 和碱基j 的比值,i ,j 为A 、T 、C 或G

i Y :第i 个样品的特征向量

ij d :向量i Y 和向量j Y 间的Lance 和Williams 距离

p :特征向量的分量个数,即向量的维数

k :特征向量的第k 个分量

n :样品的个数

ik x :特征向量i 的第k 个分量

max d :不同向量代表的

p 维空间中任意两点间Lance 和Williams 距离的最大值 min d :不同向量代表的p 维空间中任意两点间Lance 和Williams 距离的最小值 i y :聚类分析中i 类的标准向量,i 为A 或B

六、数据预处理

1.A 类和B 类样品单个碱基丰度的计算

用maTlab 编写程序(见附件3),分别求出20条已知类别的人工制造的DNA 序列中,4种碱基的丰度,绘出散点图如下:

图6.1.1 单个碱基丰度比较图

分析上图可得, A 类和B 类DNA 序列中碱基T 和碱基G 的丰度有明显差异,而碱基A 和碱基C 的丰度则比较接近。

2. A 类和B 类样品不同碱基丰度之比的计算

用matlab 编写程序(见附件4),分别求出20条已知类别的人工制造的DNA 序列中,不同碱基的丰度之比,包括TA f 、CA f 、GA f 、CT f 、GT f 、GC f ,绘出散点图如下:

图6.1.2 不同碱基丰度之比的比较图

分析上图可得, A 类和B 类DNA 序列中,碱基T 与碱基A 的丰度之比、碱基G 与碱基A 的丰度之比、碱基C 与碱基T 的丰度之比、碱基G 与碱基T 的丰度之比有明显差异,而碱基C 与碱基A 的丰度之比、碱基G 与碱基C 的丰度之比则比较接近。

3.将编号1-40人工制造的DNA 序列的中,碱基T 的丰度、碱基G 的丰度、碱基T 与碱基A 的丰度之比、碱基G 与碱基A 的丰度之比、碱基C 与碱基T 的丰度之比、碱基G 与碱基T 的丰度之比,用表格的形式加以表达(见附件5,表1)。

4.统计所有DNA 序列中碱基A 、T 、C 、G 的比例,发现在未知类别的人工制造的DNA 序列以及自然序列中并非只存在A 、T 、C 、G 四种碱基,还存在n 、s 、w 、y 等特殊碱基,这可能和生物自身需要完成的特定功能有关,具体列表如下: 表2 特殊的DNA 序列及特殊碱基种类

在提取特征时不需要考虑特殊碱基的影响,同样,在处理编号21-40的人工制造的DNA 序列以及182条自然序列时,也不必考虑特殊碱基的影响,使用数据时,可将特殊碱基直接剔除。

七、模型的建立与求解

7.1模型一:聚类分析延拓模型

要使DNA 序列的分类能够尽量科学合理,集中要解决的问题是让分类后的样品满足:同类样品间的差异性尽可能小,不同类样品间的差异性尽可能大。

为达到上述目的,引入聚类分析模型对不同的DNA 序列进行分类。

7.1.1模型一的建立

聚类分析方法根据分类对象的不同可以分为两类:1.对样品所作的分类,即Q-型聚类,2.对变量所作的分类,即R-型聚类。此问题将给出的不同DNA 序列看成是不同的样品,选用Q-型聚类进行具体求解。

(1)样品特征变量的引入

为了刻画不同样品的性质,需要对样品引入统一的特征作为样品特征变量,特征变量的确定来源于聚类分析前对数据进行预处理得到的分析结果。

1)样品中A ,C ,T ,G 的碱基丰度

样品i 中A 碱基丰度的计算:

/A A i F n N = (1)

其他碱基丰度的计算方法同上。

绘出编号1-20的人工制造的已知类别的DNA 序列中4种碱基丰度的离散统计图(图6.1.1)。

观察该散点图,进行数据分析可得:DNA 序列中碱基A 和碱基C 在分类A 和B 中的区分不大,均大致在相同的频率区间内波动,故不选用碱基A 和碱基C 的丰度作为特征区分;而DNA 序列中碱基T 和碱基G 在分类A 和B 中的区分较大,A 类和B 类相应的碱基丰度分别集中在不同的频率区间范围内,故选用碱基T 和碱基G 的丰度作为特征区分。

将T 的碱基丰度作为样品的第1个特征变量,记为1x 。

将G 的碱基丰度作为样品的第2个特征变量,记为2x 。

2)样品不同碱基间的比例

样品i 中碱基T 和碱基A 的比值计算:

/GT G T f n n =

(2)

其他碱基比例的计算方法同上。

绘出编号1-20的人工制造的已知类别的DNA 序列中不同碱基的丰度之比的

离散统计图(图6.1.2)。

观察该散点图,进行数据分析可得:DNA序列中碱基T和碱基A的丰度之比以及碱基G和碱基T的丰度之比在分类A和B中的区分较大,A类和B类相应的碱基丰度之比分别集中在不同的频率区间范围内,故选用碱基T和碱基A的丰度之比以及碱基G和碱基T的丰度之比作为特征区分。

将碱基T和碱基A的比值作为样品的第3个特征变量,记为3x。

将碱基G和碱基T的比值作为样品的第4个特征变量,记为4x。

(2)样品特征数据的向量转化

把上述得到的4种特征变量分别作为一个向量的四个分量,用该向量作为样品特征向量来描述不同样品。

由附件5表1,编号1-40样品的1x、2x、3x和4x的值分别为表中的第1、2、3、6列。

于是得到编号1-20的样品的20个特征向量如下:

1(0.1351, 0.3964, 0.4545, 2.9333)

Y=;

2(0.1532, 0.4144, 0.5667, 2.7059)

Y=;

3(0.0631, 0.4505, 0.2333, 7.1429)

Y=;

4(0.2883, 0.1802, 0.6809, 0.6250)

Y=;

5(0.1081, 0.4234, 0.4615, 3.9167)

Y=;

6(0.1261, 0.3964, 0.3590, 3.1429)

Y=;

7(0.1892, 0.3604, 0.5385, 1.9048)

Y=;

8(0.1892, 0.3694, 0.6774, 1.9524)

Y=;

9(0.1532, 0.4324, 0.7391, 2.8235)

Y=;

10(0.1364, 0.4091, 0.7500, 3.0000)

Y=;

11(0.5000, 0.1000, 1.4103, 0.2000)

Y=;

12(0.5000, 0.1455, 1.5278, 0.2909)

Y=;

13(0.5182, 0.1273, 2.0357, 0.2456)

Y=;

14(0.5000, 0.1182, 1.6667, 0.2364)

Y=;

15(0.6455, 0.0636, 2.2188, 0.0986)

Y=;

16(0.4636, 0.0909, 1.2750, 0.1961)

Y=;

17(0.2636, 0.1364, 0.7436, 0.5172)

Y=;

18(0.5000, 0.0909, 1.7188, 0.1818)

Y=;

19(0.5636, 0.0727, 2.5833, 0.1290)

Y=;

20(0.5636, 0.0636, 2.8182, 0.1129)

Y=。

(3)不同样品的相似性度量(分析编号1-20的样品)

因为20个已知类别的DNA序列的样品变量均属于数值型数据,所以两个个体的相似度是指它们在欧氏空间中互相邻近的程度。据此,引用距离测度来描述不同样品的相似性。距离测度小的两个样品,相似性较高;反之,距离测度大的两个样品,相似性较低。

为了排除不同变量之间的相互影响,以及减弱较大数据出现时对结果的不良影响,即减弱较大值(包括异常值)的敏感度。选用Lance和Williams距离来描述距离测度,进而衡量不同样品间的相似性。此外,Lance和Williams距离还与

样品变量的单位无关,使结果无量纲化。

向量i Y 和向量j Y 间的Lance 和Williams 距离为:

1||()p ik jk ij k ik jk x x d x x =-=+∑

(3) 用公式(3)计算所有向量所代表的p 维空间中所有样品点之间的两两距离。

由排列组合知识,所有向量(n 个)进行两两组合的个数为:2n C ,分别计算

出每个组合的Lance 和Williams 距离。

本次聚类中选用的向量个数为n=20,一共有220190C =种组合,用matlab 编

程(见附件6 )求解出所有组合的Lance 和Williams 距离,并对数据进行比较得出max 3.3671d =。

(4)根据距离测度进行分类

1)样品数据分成两类

由上述得到的max d ,查找max d 所对应的向量组合,假定该向量组合是向量i Y 和向量j Y ,则将第i 个样品和第j 个样品分为A ,B 两类,可以令i 样品为A 类,

令j 样品为B 类。分别将i Y 和j Y 作为A ,B 两类的标准向量A y ,B y 对剩余样品进行分类。

2)剩余样品分类

样品i 和样品j 分完类后,还剩余(n-2)个样品未进行分类,将这(n-2)个样品数据分别和A 类的标准向量A y 进行组合,计算出每个组合的Lance 和Williams 距离,将所得的距离进行比较,得出最小的min d ,查找min d 所对应的向量,假定该向量是a Y ,则将该向量和样品i 分为一类,同属于A 类。用同样的方法把这(n-2)个样品数据分别和B 类的标准向量B y 进行组合,得出最小的min d ,假定该组合所对应的向量是b Y ,则将该向量和样品j 分为一类,同属于B 类。

此时得到A 组为a Y ,i Y 。B 组为b Y ,j Y 。

A ,

B 两类标准的重新计算:将此时A ,B 组中的所有向量分别求出平均值得到A ,B 类的新的标准向量。

A 类的标准向量:

()/2A a i y Y Y =+ (4)

B 类的标准向量:

()/2B b j y Y Y =+ (5)

3)上述步骤后还剩余(n-4)个样品未进行分类,依照2)剩余样品分类给出的方法不断重复进行计算,对所有的剩余样品均实现分类。

7.1.2模型一的求解

按照上述方法首先计算得到这些样品中向量3Y 和向量20Y 间的Lance 和

Williams 距离最大,则将第3个样品和第20个样品分为A ,B 两类。令第3个样品为A 类,第20个样品为B 类。按照7.1.1中的步骤依次进行分类,用matlab 编程(见附件7)求解得到分类结果如下:

A 类的样品编号为:1,2,3,5,6,7,8,9,10,17;

B 类的样品编号为:4,11,12,13,14,15,16,18,19,20。

7.1.3模型一的检验与改进

(1)模型一的改进与可行性分析

由以上分类结果可知,用聚类分析延拓法对编号1-20人工制造的DNA 序列进行分类的结果与已知分类结果并非完全一致。在此分类方法下,第4条DNA 序列不再属于A 类,而属于B 类;第17条DNA 序列不再属于B 类,而属于A 类。因此,有必要对模型进行改进。

可以改变样品变量的组合方式,选择碱基T 的丰度、碱基T 与碱基A 的丰度之比、碱基C 与碱基T 的丰度之比、碱基G 与碱基T 的丰度之比作为四个样品变量,分别设为1x 、2x 、3x 和4x 。

由附件5表1,编号1-40样品的1x 、2x 、3x 和4x 的值分别为表中的第1、3、5、6列。

得到编号1-20的样品的20个特征向量如下:

1(0.1351, 0.4545, 1.2667, 2.9333)Y =;2(0.1532, 0.5667, 1.0588, 2.7059)Y =; 3(0.0631, 0.2333, 3.4286, 7.1429)Y =;4(0.2883, 0.6809, 0.3750,0.6250)Y =;

.

.

.

17(0.2636, 0.7436, 0.9310,0.5172)Y =;18(0.5000,1.7188, 0.2364, 0.1818)Y =; 19(0.5636, 2.5833, 0.2581, 0.1290)Y =;20(0.5636, 2.8182, 0.3065, 0.1129)Y =。 用公式(3)计算20个向量所代表的4维空间中所有样品点两两之间的Lance 和Williams 距离,并按照7.1.1中的距离测度法对编号1-20人工制造的DNA 序列进行分类得到的分类结果如下:

A 类的样品编号为:1,2,3,4,5,6,7,8,9,10;

B 类的样品编号为:11,12,13,14,15,16,17,18,19,20。

由以上分类结果可知,改变样品变量的组合方式,选择碱基T 的丰度、碱基

T 与碱基A 的丰度之比、碱基C 与碱基T 的丰度之比、碱基G 与碱基T 的丰度之比作为四个样品变量后,用聚类分析延拓法对编号1-20人工制造的DNA 序列进行分类的结果与已知分类结果完全一致。

所以,该分类方法可行。

(2)模型一的进一步检验与实践

1)用模型一中改进后的聚类分析延拓法,对编号21-40人工制造的DNA 序列进行分类,对附件7中的程序稍作修改,求解得到分类结果如下:

A 类的样品编号为:22,23,25,27,29,30,34,35,36,37,39;

B 类的样品编号为:21,24,26,28,31,32,33,38,40。

2)用模型一中改进后的聚类分析延拓法,对182个自然DNA 序列进行分类,同样对附件7中的程序稍作修改,求解得到分类结果如下:

B 类的样品编号为:7,10,12,22,23,24,26,28,30,34,43,48,50,54,57,65,75,76,80,84,85,86,92,98,103,107,110,114,116,119,121,122,123,127,128,129,130,131,137,138,140,142,143,144,146,151,156,159,161,162,163,166,168,170,173,174,175,179,180,181,182;

其余的自然DNA 序列为A 类。

7.1.4模型一改进后分类效果的评价

(1)求出A 类中10条DNA 序列4个样品变量(碱基T 的丰度、碱基T 与碱基A 的丰度之比、碱基C 与碱基T 的丰度之比、碱基G 与碱基T 的丰度之比)的平均值,作为A 类的标准点a ;求出B 类中10条DNA 序列4个样品变量的平均值,作为B 类的标准点b :

a=(0.1393,0.5311,1.5172,3.2803);b=(0.5020,1.8300,0.2618,0.2131)。

(2)计算A 类中10个样品点与标准点a 之间的Lance 和Williams 距离,并求出距离的平均值和标准差:平均值10.7224a =,标准差10.5298a σ=;计算B 类中10个样品点与标准点a 之间的Lance 和Williams 距离,并求出距离的平均值和标准差:平均值2 2.6923a =,标准差20.4646a σ=。

(3)计算A 类中10个样品点与标准点b 之间的Lance 和Williams 距离,并求出距离的平均值和标准差:平均值1 2.5116b =,标准差10.5193b σ=;计算B 类中10个样品点与标准点b 之间的Lance 和Williams 距离,并求出距离的平均值和标准差:平均值20.7227b =,标准差20.5323b σ=。

(4)对以上数据进行分析。

若分类方法合理,那么不同类别之间的差别应尽可能大,即1a 与2a 的差别、1b 与2b 的差别应尽可能大;同类之间的差别应尽可能小,即1a σ、2a σ、1b σ和2b σ应尽可能小。

此外,定义相关系数:

12

12||X X X r X X σσ+=-,

X 为a 时,表示选择标准点a 进行评价时的相关系数,12

120.5048||a a a r a a σσ+==-;

X 为b 时,表示选择标准点b 进行评价时的相关系数,12

120.5879||b b b r b b σσ+==-。

由均值和标准差的含义,为使A 类与B 类之间的差别尽可能大,那么相关系数r 应该尽可能小,由以上结果 a r 和b r 的大小均为0.5左右,可知该分类方法合

理,且能够达到较好的分类效果。

7.2模型二:马尔可夫模型

7.2.1模型的建立与求解

(1)DNA 序列的马尔可夫链转换

把DNA 的一个样品序列看成是一个系统,组成该DNA 序列的不同位置的碱基看成是这个系统中的相应的不同状态。DNA 的长度为N ,则该系统有N 个状态,分别记为1,2,...,N S S S ,每个状态对应一个碱基。这样给定的一条长度为N 的

DNA 序列转化成有N 个状态组成的系统,即为1,2,...,N S S S 。随着时间的推移,系统从某一状态转移到另一状态,设t q 为时间t 的状态(t j q S =),系统在t 时间

的状态1t q -只与其在时间t-1的状态相关(1t i q S -=),其概率为1(|)t t P q q -。这样将该系统转换成一个离散的一阶马尔可夫链。

(2)不同碱基的组合情况

将4个碱基进行两两组合,用表格的形式进行考虑。

两个碱基组合排列一共有16种情况。(()P AT 表示在前一状态为碱基A 的情况下后一状态出现碱基T 的概率,其他字母表示意义和上述同)

(3)中间状态发生的概率

中间状态:系统中除第一个状态和最后一个状态外均称为中间状态。

以A 类情况下AT 的情况为例进行计算:

给定的A 类样品为编号1-10的DNA 序列,将这10条DNA 序列组合作为一个大样品。

A n 表示在该样品中出现碱基A 的个数,

AT n 表示一条DNA 链中碱基A 后出现碱基T 的情况组合起来看成一个新的碱基(AT ),该样品中碱基(AT )的个数。

()P AT 的概率:()P AT (|)/AT A P T A n n == (6) 根据上述的计算公式,算出A 类其余15种组合的概率。

B 类的计算情况和A 类的情况相同。

根据A 类,B 类给出的DNA 序列具体进行计算,得到以下表格:

表4 A 类不同中间状态发生的概率表

给定一条长度为N 的DNA ,将其转换为系统状态序列1,2,...,N S S S ,每一个系

统状态对应同一位置DNA 序列给出的一个碱基,计算该DNA 序列产生的概率。

该DNA 序列系统产生的概率计算公式:

123121321P n n n -(S ,S ,S ,...,S )=P(S )P(S |S )P(S |S )...P(S |S ) (7)

第一个状态的出现概率均设为1,即1P(S )=1。

分别根据A 类,B 类给出的中间状态出现的概率,得到该DNA 序列产生概率。

(5)DNA 分类的判定

将上面得到的两个DNA 序列产生概率经行比较,如果通过A 类中间状态的概率计算值远远大于B 类中间状态的概率计算值,则将该状态归为A 类;同样,若通过B 类中间状态的概率计算值远远大于A 类中间状态的概率计算值,则将该状态归为B 类。

(6)实际数据的代入计算

对已知类别的20个样品依照上述方法进行分类。

表7 编号为11-20个样本产生概率统计表

进行判定具有一定的合理性。可以进一步推广,对其他的DNA序列进行判别7.2.2分类结果统计

用matlab编写程序(见附件8)对编号21-40人工DNA序列以及182个自然序列进行分类,结果如下。

(1)编号21-40人工DNA序列分类结果:

A类:22,23,25,26,27,29,30,32,33,34,35,36,37,39;

B类: 21,24,28,31,38,40。

(2)182个自然序列分类结果:

A类:1,2,3,4,5,6,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,24,25,26,27,28,29,31,32,33,34,35,36,37,38,39,40,41,42,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,66,67,68,69,70,71,72,73,74,77,78,79,80,81,82,83,84,86,87,88,89,90,91,93,94,95,96,97,98,99,100,101,102,104,105,106,108,109,111,112,113,115,116,117,118,120,121,123,124,125,126,127,129,130,132,133,134,135,136,137,139,140,141,142,143,145,146,147,148,149,150,152,153,154,155,157,158,160,164,165,167,168,169,171,172,173,174,175,176,177,178,179,180,181 B类:7,23,30,43,65,75,76,85,92,103,107,110,114,119,122,128,131,138,144,151,156,159,161,162,163,166,170,182

总计,182个自然序列分入A类的个数:154个;182个自然序列分入B类的个数:28个

7.2.3模型的评价

对模型的分类效果进行评价,评价标准:同类样品间的差异性较小,不同类样品间的差异性较大,则这样的分类效果较好;反之同类样品间的差异性较大,而不同类样品间的差异性较小,这样的分类效果就不够理想。

(1)检验样本的数据处理

选取前20号DNA样品作为检验样本。依照上述马尔可夫模型的分类结果,A 类为:1,2,3,5,6,7,8,9,10。B类为:4,11,12,13,14,15,16,17,18,19,20。

将每一个样品的最大产生概率(每个样品有两个生成概率,分别用A类和B 类的相应数据进行求解,其中较大的一个即为该样品的最大产生概率)作为该样品的特征变量。

由于最大产生概率的数量级很小,为了后期数据处理的方便和准确性,将各

样品最大产生概率通过分别取对数的方法进行数据处理。

A 类样品对应的计算结果为:-61.0000,-59.8539,-56.8539,-59.8539,-56.4559,-59.2007,-61.5086,-61.1308,-62.1024

B 类样品对应的计算结果为:-65.0506,-49.6990,-51.0506,-54.0132,-55.0132,-41.5850,-54.2147,-68.5376,-52.9586,-53.7212,-54.9208。

(2)同类样品间的差异性判定

对上面的数据,按照类为单位分别计算相应的平均值,得到A 类的平均值为:_60.3638A ξ=-,B 类的平均值为:_53.5714B ξ=-。 用公式2_2

11()1n i i S n ξξ==--∑分别求A 类和B 类的无偏方差。(2S 为方差,i ξ为第i 个最大概率取对数的值,_ξ为平均概率取对数的值,σ为标准差)

这样进一步得到A 类和B 类的标准差分别为 2.6464A σ=, 6.6158B σ=,该标准差的值较小说明同类样品间的差异性较小。

(3)不同类样品间的差异性判定

将A 类的9个样品分别用A 类的中间状态概率和B 类的中间状态概率进行计算得到两组平均值:_1 -60.3638A ξ=,_2 -66.2520A ξ=。(_

1A ξ表示A 类的9个样

品用A 类的中间状态概率得到平均值,_2A ξ表示A 类的9个样品用B 类的中间状

态概率得到平均值)

同理将B 类的11个样品分别用A 类的中间状态概率和B 类的中间状态概率进行计算得到两组平均值:_1 -76.2691B ξ=,_2 -53.5714B ξ=。(_1B ξ表示B 类的11个样品用A 类的中间状态概率得到平均值,

_2B ξ表示B 类的11个样品用B 类的中间状态概率得到平均值)

A 类样品的两个标准差:

2_2

1111()1n A i A i S n ξξ==--∑,1= 2.6464A σ

2_2

2211()1n A i A i S n ξξ==--∑,2= 3.1973A σ (1A S 表示A 类样品通过A 类的中间状态概率计算得到的方差,1A σ表示A 类样品通过A 类的中间状态概率计算得到的标准差,2A S 表示A 类样品通过B 类的中间状态概率计算得到的方差,2A σ表示A 类样品通过B 类的中间状态概率计算得到的标准差)

A 类样品中分别用A 类的中间状态概率和

B 类的中间状态概率进行计算,所得结果的差异性:

1A2

A __1A2=0.3273||A A r σσξξ+=-(A r 表示A 类样品中两种中间状态概率

计算结果的相关系数)

把B 类的11个样品用上述的方法做同样的处理,得到B 类样品中两种中间状态概率计算结果的相关系数:

B1B2

B __B1B2=0.8809||r σσξξ+=-

上述相关系数间接刻画了两类别间的差异性大小,值越小,则说明不同类样品间的差异性越大;反之,值越大,则说明不同类样品间的差异性越小。

选取两个系数中的较差值B r 作为最后的相关性系数(依照最差值选取原则,

若最差值也能取得较好的结果,则得到整个结果的合理性),该值较小,从而得到不同类样品间的差异性较大。

依照上述给定的判断标准,得到马尔可夫模型的分类效果较好的结论。

7.3模型一与模型二选择的层次分析模型

本文给出了两种不同的模型对DNA 序列进行了分类,现用层次分析法综合对两者进行比较,选出其中更优的一个模型。

该层次分析中,目标层为选取两个模型中更优的一个;准则层为模型好坏的评价标准,确定为两点:1.模型分类情况和给定前20个样品的分类情况的相似程度,2.模型自身的分类效果(同类样品间的差异性较小,不同类样品间的差异性较大,则自身的分类效果较好);方案层为聚类分析延拓模型和马尔科夫模型。

根据上述的层次,给出层次分析的结构图:

图7.3.1 层次分析法的结构图

1)构造准则层对于目标层的成对比较矩阵:

数学建模常用模型方法总结精品

【关键字】设计、方法、条件、动力、增长、计划、问题、系统、网络、理想、要素、工程、项目、重点、检验、分析、规划、管理、优化、中心 数学建模常用模型方法总结 无约束优化 线性规划连续优化 非线性规划 整数规划离散优化 组合优化 数学规划模型多目标规划 目标规划 动态规划从其他角度分类 网络规划 多层规划等… 运筹学模型 (优化模型) 图论模型存 储论模型排 队论模型博 弈论模型 可靠性理论模型等… 运筹学应用重点:①市场销售②生产计划③库存管理④运输问题⑤财政和会计⑥人事管理⑦设备维修、更新和可靠度、项目选择和评价⑧工程的最佳化设计⑨计算器和讯息系统⑩城市管理 优化模型四要素:①目标函数②决策变量③约束条件 ④求解方法(MATLAB--通用软件LINGO--专业软件) 聚类分析、 主成分分析 因子分析 多元分析模型判别分析 典型相关性分析 对应分析 多维标度法 概率论与数理统计模型 假设检验模型 相关分析 回归分析 方差分析 贝叶斯统计模型 时间序列分析模型 决策树 逻辑回归

传染病模型马尔萨斯人口预测模型微分方程模型人口预 测控制模型 经济增长模型Logistic 人口预测模型 战争模型等等。。 灰色预测模型 回归分析预测模型 预测分析模型差分方程模型 马尔可夫预测模型 时间序列模型 插值拟合模型 神经网络模型 系统动力学模型(SD) 模糊综合评判法模型 数据包络分析 综合评价与决策方法灰色关联度 主成分分析 秩和比综合评价法 理想解读法等 旅行商(TSP)问题模型 背包问题模型车辆路 径问题模型 物流中心选址问题模型 经典NP问题模型路径规划问题模型 着色图问题模型多目 标优化问题模型 车间生产调度问题模型 最优树问题模型二次分 配问题模型 模拟退火算法(SA) 遗传算法(GA) 智能算法 蚁群算法(ACA) (启发式) 常用算法模型神经网络算法 蒙特卡罗算法元 胞自动机算法穷 举搜索算法小波 分析算法 确定性数学模型 三类数学模型随机性数学模型 模糊性数学模型

数学建模算法分类

数学模型按照不同的分类标准有许多种类: 1.按照模型的数学方法分,有几何模型,图论模型,微分方程模型。概率模型,最优控制模型,规划论模型,马氏链模型。 2.按模型的特征分,有静态模型和动态模型,确定性模型和随机模型,离散模型和连续性模型,线性模型和非线性模型。 3.按模型的应用领域分,有人口模型,交通模型,经济模型,生态模型,资源模型。环境模型。 4.按建模的目的分,有预测模型,优化模型,决策模型,控制模型等。 5.按对模型结构的了解程度分,有白箱模型,灰箱模型,黑箱模型。 数学建模的十大算法: 蒙特卡洛算法(该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟可以来检验自己模型的正确性,比较好用的算法。) 数据拟合、参数估计、插值等数据处理算法(比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用matlab作为工具。) 线性规划、整数规划、多元规划、二次规划等规划类问题(建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用lingo、lingdo软件实现)图论算法(这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。) 动态规划、回溯搜索、分治算法、分支定界等计算机算法(这些算法是算法设计中比较常用的方法,很多场合可以用到竞赛中) 最优化理论的三大非经典算法:模拟退火法、神经网络、遗传算法(这些问题时用来解决一些较困难的最优化问题的算法,对于有些问题非常有帮助,但是算法的实现比较困难,需谨慎使用) 网格算法和穷举法(当重点讨论模型本身而情史算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具) 一些连续离散化方法(很多问题都是从实际来的,数据可以是连续的,而计算机只认得是离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。 数值分析算法(如果在比赛中采用高级语言进行编程的话,那一些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。) 图像处理算法(赛题中有一类问题与图形有关,即使与图形无关,论文中也应该要不乏图片的,这些图形如何展示以及如何处理就是需要解决的问题,通常使用matlab来处理问题。) 数学建模方法 统计:1.预测与预报2.评价与决策3.分类与判别4.关联与因果 优化:5.优化与控制 预测与预报 ①灰色预测模型(必须掌握) 满足两个条件可用: a数据样本点个数少,6-15个 b数据呈现指数或曲线的形式 ②微分方程预测(备用) 无法直接找到原始数据之间的关系,但可以找到原始数据变化速度之间的关系,通过公式

数学建模之层次分析法

第四讲层次分析法 在现实世界中,往往会遇到决策的问题,比如如何选择旅游景点的问题,选择升学志愿的问题等等。在决策者作出最后的决定以前,他必须考虑很多方面的因素或者判断准则,最终通过这些准则作出选择。 比如选择一个旅游景点时,你可以从宁波、普陀山、浙西大峡谷、雁荡山和楠溪江中选择一个作为自己的旅游目的地,在进行选择时,你所考虑的因素有旅游的费用、旅游地的景色、景点的居住条件和饮食状况以及交通状况等等。这些因素是相互制约、相互影响的。我们将这样的复杂系统称为一个决策系统。这些决策系统中很多因素之间的比较往往无法用定量的方式描述,此时需要将半定性、半定量的问题转化为定量计算问题。层次分析法是解决这类问题的行之有效的方法。层次分析法将复杂的决策系统层次化,通过逐层比较各种关联因素的重要性来为分析、决策提供定量的依据。 一、建立系统的递阶层次结构 首先要把问题条理化、层次化,构造出一个有层次的结构模型。一个决策系统大体可以分成三个层次: (1) 最高层(目标层):这一层次中只有一个元素,一般它是分析问题的预定目标或理想结果; (2) 中间层(准则层):这一层次中包含了为实现目标所涉及的中间环节,它可以由若干个层次组成,包括所需考虑的准则、子准则; (3) 最低层(方案层):这一层次包括了为实现目标可供选择的各种措施、决策方案等。 比如旅游景点问题,我们可以得到下面的决策系统: 目标层——选择一个旅游景点 准则层——旅游费用、景色、居住、饮食、交通 方案层——宁波、普陀山、浙西大峡谷、雁荡山、楠溪江 二、构造成对比较判断矩阵和正互反矩阵 在确定了比较准则以及备选的方案后,需要比较若干个因素对同一目标的影响,从额确定它们在目标中占的比重。如旅游问题中,五个准则对于不同决策者在进行决策是肯定会有不同的重要程度,而不同的方案在相同的准则上也有不同的适合程度表现。层次结构反映了因素之间的关系,但准则层中的各准则在目标衡量中所占的比重并不一定相同,在决策者的

2000年全国大学生数学建模竞赛A题 DNA序列分类

2000年全国大学生数学建模竞赛A题DNA序列分类 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3 字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,1 1-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—4 0)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类__________ ;B类_______________ 。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载: 网易网址:https://www.sodocs.net/doc/0113890055.html, 教育频道在线试题; 教育网: https://www.sodocs.net/doc/0113890055.html, New mcm2000 教育网: https://www.sodocs.net/doc/0113890055.html,/mcm 2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。 提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列

什么是数学模型与数学建模

1. 什么是数学模型与数学建模 简单地说:数学模型就是对实际问题的一种数学表述。 具体一点说:数学模型是关于部分现实世界为某种目的的一个抽象的简化的数学结构。 更确切地说:数学模型就是对于一个特定的对象为了一个特定目标,根据特有的内在规律,做出一些必要的简化假设,运用适当的数学工具,得到的一个数学结构。数学结构可以是数学公式,算法、表格、图示等。 数学建模就是建立数学模型,建立数学模型的过程就是数学建模的过程(见数学建模过程流程图)。数学建模是一种数学的思考方法,是运用数学的语言和方法,通过抽象、简化建立能近似刻划并"解决"实际问题的一种强有力的数学手段。 2.美国大学生数学建模竞赛的由来: 1985年在美国出现了一种叫做MCM的一年一度大大学生数学模型(1987年全称为Mathematical Competition in Modeling,1988年改全称为Mathematical Contest in Modeling,其所写均为MCM)。这并不是偶然的。在1985年以前美国只有一种大学生数学竞赛(The william Lowell Putnam mathematial Competition,简称Putman(普特南)数学竞赛),这是由美国数学协会(MAA--即Mathematical Association of America的缩写)主持,于每年12月的第一个星期六分两试进行,每年一次。在国际上产生很大影响,现已成为国际性的大学生的一项著名赛事。该竞赛每年2月或3月进行。 我国自1989年首次参加这一竞赛,历届均取得优异成绩。经过数年参加美国赛表明,中国大学生在数学建模方面是有竞争力和创新联想能力的。为使这一赛事更广泛地展开,1990年先由中国工业与应用数学学会后与国家教委联合主办全国大学生数学建模竞赛(简称CMCM),该项赛事每年9月进行。

数学模型的分类有哪些

数学模型的分类有哪些 数学模型可以按照不同的方式分类,下面介绍常用的几种. 1.按照模型的应用领域(或所属学科)分:如人口模型、交通模型、环境模型、生态模型、城镇规划模型、水资源模型、再生资源利用模型、污染模型等.范畴更大一些则形成许多边缘学科如生物数学、医学数学、地质数学、数量经济学、数学社会学等. 2.按照建立模型的数学方法(或所属数学分支)分:如初等数学模型、几何模型、微分方程模型、图论模型、马氏链模型、规划论模型等. 按第一种方法分类的数学模型教科书中,着重于某一专门领域中用不同方法建立模型,而按第二种方法分类的书里,是用属于不同领域的现成的数学模型来解释某种数学技巧的应用.在本书中我们重点放在如何应用读者已具备的基本数学知识在各个不同领域中建模. 3.按照模型的表现特性又有几种分法:

确定性模型和随机性模型取决于是否考虑随机因素的影响.近年来随着数学的发展,又有所谓突变性模型和模糊性模型.静态模型和动态模型取决于是否考虑时间因素引起的变化. 线性模型和非线性模型取决于模型的基本关系,如微分方程是否是线性的. 离散模型和连续模型指模型中的变量(主要是时间变量)取为离 散还是连续的. 虽然从本质上讲大多数实际问题是随机性的、动态的、非线性的,但是由于确定性、静态、线性模型容易处理,并且往往可以作为初步的近似来解决问题,所以建模时常先考虑确定性、静态、线性模型.连续模型便于利用微积分方法求解,作理论分析,而离散模型便于在计算机上作数值计算,所以用哪种模型要看具体问题而定.在具体的建模过程中将连续模型离散化,或将离散变量视作连续,也是常采用的方法. 4.按照建模目的分:有描述模型、分析模型、预报模型、优化模

数学建模DNA序列分类模型终

DNA序列分类模型DNA序列分类模型

毕业设计(论文)原创性声明和使用授权说明 原创性声明 本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。 作者签名:日期: 指导教师签名:日期: 使用授权说明 本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 作者签名:日期:

学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 涉密论文按学校规定处理。 作者签名:日期:年月日 导师签名:日期:年月日

数学建模中常见的十大模型

数学建模常用的十大算法==转 (2011-07-24 16:13:14) 转载▼ 1. 蒙特卡罗算法。该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟来检验自己模型的正确性,几乎是比赛时必用的方法。 2. 数据拟合、参数估计、插值等数据处理算法。比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用MA TLAB 作为工具。 3. 线性规划、整数规划、多元规划、二次规划等规划类算法。建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用Lindo、Lingo 软件求解。 4. 图论算法。这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。 5. 动态规划、回溯搜索、分治算法、分支定界等计算机算法。这些算法是算法设计中比较常用的方法,竞赛中很多场合会用到。 6. 最优化理论的三大非经典算法:模拟退火算法、神经网络算法、遗传算法。这些问题是用来解决一些较困难的最优化问题的,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用。 7. 网格算法和穷举法。两者都是暴力搜索最优点的算法,在很多竞赛题中有应用,当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具。 8. 一些连续数据离散化方法。很多问题都是实际来的,数据可以是连续的,而计算机只能处理离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。 9. 数值分析算法。如果在比赛中采用高级语言进行编程的话,那些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。 10. 图象处理算法。赛题中有一类问题与图形有关,即使问题与图形无关,论文中也会需要图片来说明问题,这些图形如何展示以及如何处理就是需要解决的问题,通常使用MA TLAB 进行处理。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 2 十类算法的详细说明 2.1 蒙特卡罗算法 大多数建模赛题中都离不开计算机仿真,随机性模拟是非常常见的算法之一。 举个例子就是97 年的A 题,每个零件都有自己的标定值,也都有自己的容差等级,而求解最优的组合方案将要面对着的是一个极其复杂的公式和108 种容差选取方案,根本不可能去求解析解,那如何去找到最优的方案呢?随机性模拟搜索最优方案就是其中的一种方法,在每个零件可行的区间中按照正态分布随机的选取一个标定值和选取一个容差值作为一种方案,然后通过蒙特卡罗算法仿真出大量的方案,从中选取一个最佳的。另一个例子就是去年的彩票第二问,要求设计一种更好的方案,首先方案的优劣取决于很多复杂的因素,同样不可能刻画出一个模型进行求解,只能靠随机仿真模拟。 2.2 数据拟合、参数估计、插值等算法 数据拟合在很多赛题中有应用,与图形处理有关的问题很多与拟合有关系,一个例子就是98 年美国赛A 题,生物组织切片的三维插值处理,94 年A 题逢山开路,山体海拔高度的插值计算,还有吵的沸沸扬扬可能会考的“非典”问题也要用到数据拟合算法,观察数据的

DNA序列的一种分类方法

收稿日期:2002203210 作者简介:刘志(1965— )男,山东东平人,空军工程大学工程师文章编号:100123857(2002)Sup.20114203 D NA 序列的一种分类方法 刘 志 (空军工程大学导弹学院,陕西西安713800) 摘 要:基于小波变换和相关技术,提出了一种DNA 序列的分类方法.首先将DNA 序列转换成数字序列,然后对此序列进行Matlab 快速分解,计算未知类别序列与已知类别序列的相关系数,由此判定序列的类别.结果表明,该方法是切实可行的. 关键词:DNA 序列;相关技术;小波变换 中图分类号:O357 文献标识码:A 2000年6月,人类基因组计划中DNA 全部草图完成,预计2002年可以完成精确的全序列图,此后人类将拥有一本记录着自己生老病死及遗传进化的全部信息的“天书”.这本大自然写成的“天书”是由4个字符A ,T ,C ,G 按一定的顺序排成的长约30亿的序列,其中没有“断句”也没有“标点符号”,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂.破译这部世界上最巨量信息的天书是21世纪最重要的任务之一.虽然人类对这部天书知之甚少,但也发现了DNA 序列中的一些规律和结构.例如,在全序列中有一些是用于,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸.此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等.本文利用小波变换和相关技术,提出了一种DNA 序列的分类方法. 1 Matlab 快速算法 信号的小波分析相当于对信号加上一个可调的时—频窗.Matlab 根据多分辨分析的观点,利用共轭正交镜像滤波器,给出了离散小波变换的金字塔算法,使信号快速分解和重构得以实现.在Matlab 算法基础上,进一步对高频信号进行分解,将信号分解到不同的频带上,滤波时根据需要,选取所需频带内的信号进行重构,就可以完成信号的多通带滤波.小波变换不改变信号所引起的小波变换系数的极值点的位置,而噪声所引起的小波变换系数的极值点主要表现在第一、二尺度上,且随着尺度增大,小波系数的极值点越来越少.由第三级小波变换系数重构的信号的自相关函数的极大值的位置和原函数的自相关函数的极大值的位置完全相同,这是本文所提方案的依据.由第三级小波变换系数重构的信号的自相关函数图形比较光滑,而且,没有影响自相关函数的极大值的位置.此结论对信号检测非常有用. 根据多分辨分析理论,在二进正交小波基下,Matlab 快速算法[1]为 A k j f =∑n ∈Z h (n -2k )A n j -1f , j =1,2,…,J .第30卷 专 辑 陕西师范大学学报(自然科学版)Vol.30 Sup. 2002年5月Journal of Shaanxi Normal University (Natural Science Edition )May.2002

(完整版)数学建模之层次分析法

层次分析法 层次分析法是一种解决多目标的复杂问题的定性与定量相结合的决策分析方法。该方法将定量分析与定性分析结合起来,用决策者的经验判断各衡量目标能否实现的标准之间的相对重要程度,并合理地给出每个决策方案的每个标准的权数,利用权数求出各方案的优劣次序,比较有效地应用于那些难以用定量方法解决的课题。 缺点: (1)层次分析法的主观性太强,模型的搭建,判断矩阵的输入都是决策者的主观判断,往往会因为决策者的考虑不周、顾此失彼而造成失误。 (2)层次分析法模型的内部结构太过理想化,完全分离、彼此独立的层次结构在实践中很难做到。 (5)层次分析法只能从给定的决策方案中去选择,而不能给出新的、更优的策略。 1.模型的应用 用于解决多目标的复杂问题的定性与定量相结合的决策分析。 (1)公司选拔人员, (2)旅游地点的选取, (3)产品的购买等, (4)船舶投资决策问题(下载文档), (5)煤矿安全研究, (6)城市灾害应急能力, (7)油库安全性评价, (8)交通安全评价等。 2.步骤 ①建立层次结构模型 首先明确决策目标,再将各个因素按不同的属性从上至下搭建出一个有层次的结构模型,模型如下图所示。

目标层 准则层 方案层 目标层:表示解决问题的目的,即层次分析要达到的总目标。通常只有一个总目标。 准则层:表示采取某种措施、政策、方案等实现预定总目标所涉及的中间环节。 方案层:表示将选用的解决问题的各种措施、政策、方案等。通常有几个方案可选。 注意: (1)任一元素属于且仅属于一个层次;任一元素仅受相邻的上层元素的支配,并不是任一元素与下层元素都有联系; (2)虽然对准则层中每层元素数目没有明确限制,但通常情况下每层元素数最好不要超过 9 个。这是因为,心理学研究表明,只有一组事物在 9 个以内,普通人对其属性进行判别时才较为清楚。当同一层次元素数多于 9 个时,决策者对两两重要性判断可能会出现逻辑错误的概率加大,此时可以通过增加层数,来减少同一层的元素数。 ②构造判断(成对比较)矩阵 以任意一个上一层的元素为准则,对其支配的下层各因素之间进行两两比 a重要程度的衡量用Santy的1—9较。得到判断矩阵,再求出各元素的权重。 ij 标度方法给出。即

大学生消费问题数学模型(层次分析)

大学生消费问题的层次分析模型 1.问题的提出及相关问题的分析 大学生的消费结构是指大学生所消费的各种消费资料之间的比例关系.全面细致地了解大学生的消费状况具有重要的现实意义.关注大学生的消费行为,引导大学生科学消费,可以使大学生在校时合理使用有限的经济收入,进行科学消费.因此帮助大学生树立起适度、合理的消费观念,对于促进经济的发展和社会进步有着重要的意义. 1.1 目前大学生的消费来源 当今大学生的经济来源主要包括: 家庭供给、家教兼职、特困补助和奖学金.大学生由于其自身社会角色的限制,没有独立的经济来源, 主要靠家庭供给.大学生消费收入差距悬殊,主要受家庭收入的影响.1.2 目前大学生的消费状况 目前大学生的消费主要由生活消费、学习消费、娱乐消费三部分构成.生活消费,如吃饭、购置生活必需品;学习消费,如学习用品等; 娱乐消费,如购物、旅游等.随着生活水平的提高和网络信息化的发展,大学生消费呈现出多样化.在市场经济的今天,大学生的消费形式、内容、消费心理以及消费观念都发生了显著的变化.大学生传统必需型消费呈明显下降趋势,如饮食消费、衣着消费所占比例下降,其他形式的消费比例逐渐增加.学习消费主要集中在购买学习参考书、英语和计算机等级考试等和学习工具上.娱乐消费主要表现为休闲、旅游等方面,并呈上涨趋势.通讯消费主要表现在手机话费、上网等方面.大学生的

人际交往消费、恋爱消费也成为日常支出的一个重要方面. 1.3 研究目的 了解当代大学生消费的基本情况,发现大学生日常消费中存在的一些问题,为大学生的消费提供正确合理的建议指导,帮助大学生确立正确的消费观. 2 数据说明与符号约定 2.1 数据说明 以韶关学院学生为调查的对象,通过问卷调查所得数据,调查问卷的原始数据见附录.问卷是通过对60名韶关学院学生随机发放,并收回有效问卷52份而得.由调查的统计结果可知:在校大学生平均的月总支出为514.8077,学习支出为64.42308元,食物支出占301.7308元,衣着支出为62.5元,通讯支出为39.32692元,娱乐支出为51.05769元.家庭月人均收入不同的在校大学生在月总支出和其他各项具体支出方面存在差异,在校大学生的月总支出主要用于食物支出、其他方面的支出相对较少,这反应了当代大学生的消费仍然是以物质消费为基础,这是由在校大学生的非独立经济地位决定的. 2.2 符号约定 y y 为学生的平均月消费(元) 1x 1x 为学生每月由家庭提供的收入(元) 2x 2x 为学生每月做家教等兼职所获取的收入(元) 3x 3x 为学生每月的特困补助的收入(元)

数学建模竞赛试题--基因识别问题及其算法实现

基因识别问题及其算法实现 一、背景介绍 DNA 是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleic acid ,缩写为DNA )。DNA 分子是一种长链聚合物,DNA 序列由腺嘌呤(Adenine, A ),鸟嘌呤(Guanine, G ),胞嘧啶(Cytosine, C ),胸腺嘧啶(Thymine, T )这四种核苷酸(nucleotide )符号按一定的顺序连接而成。其中带有遗传讯息的DNA 片段称为基因(Gene )(见图1第一行)。其他的DNA 序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。 在真核生物的DNA 序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence )片段,称为外显子(Exon ),不编码的部分称为内含子(Intron )。外显子在DNA 序列剪接(Splicing )后仍然会被保存下来,并可在 图1真核生物DNA 序列(基因序列)结构示意图 蛋白质合成过程中被转录(transcription )、复制(replication )而合成为蛋白质(见图2)。DNA 序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(protein )上去并实现各种生命功能。 DNA 序列 外显子(Exon ) 内含子(Intron)

DNA序列 剪接、转录、复制 蛋白质序列 图2蛋白质结构示意图 对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。” 随着世界人类基因组工程计划的顺利完成,通过物理或数学的方法从大量的DNA序列中获取丰富的生物信息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一个研究热点。 二、数字序列映射与频谱3-周期性: 对给定的DNA序列,怎么去识别出其中的编码序列(即外显子),也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。 基因预测问题的一类方法是基于统计学的[1]。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站https://www.sodocs.net/doc/0113890055.html,/GENSCAN.html提供的基因识别软件GENSCAN(由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据

数学建模中常见的十大模型

数学建模中常见的十大 模型 Document serial number【KKGB-LBS98YT-BS8CB-BSUT-BST108】

数学建模常用的十大算法==转 (2011-07-24 16:13:14) 1. 蒙特卡罗算法。该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟来检验自己模型的正确性,几乎是比赛时必用的方法。 2. 数据拟合、参数估计、插值等数据处理算法。比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用MATLAB 作为工具。 3. 线性规划、整数规划、多元规划、二次规划等规划类算法。建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用Lindo、Lingo 软件求解。 4. 图论算法。这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。 5. 动态规划、回溯搜索、分治算法、分支定界等计算机算法。这些算法是算法设计中比较常用的方法,竞赛中很多场合会用到。 6. 最优化理论的三大非经典算法:模拟退火算法、神经网络算法、遗传算法。这些问题是用来解决一些较困难的最优化问题的,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用。 7. 网格算法和穷举法。两者都是暴力搜索最优点的算法,在很多竞赛题中有应用,当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具。

8. 一些连续数据离散化方法。很多问题都是实际来的,数据可以是连续的,而计算机只能处理离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。 9. 数值分析算法。如果在比赛中采用高级语言进行编程的话,那些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。 10. 图象处理算法。赛题中有一类问题与图形有关,即使问题与图形无关,论文中也会需要图片来说明问题,这些图形如何展示以及如何处理就是需要解决的问题,通常使用MATLAB 进行处理。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 以下将结合历年的竞赛题,对这十类算法进行详细地说明。 2 十类算法的详细说明 蒙特卡罗算法 大多数建模赛题中都离不开计算机仿真,随机性模拟是非常常见的算法之一。 举个例子就是97 年的A 题,每个零件都有自己的标定值,也都有自己的容差等级,而求解最优的组合方案将要面对着的是一个极其复杂的公式和108 种容差选取方案,根本不可能去求解析解,那如何去找到最优的方案呢随机性模拟搜索最优方案就是其中的一种方法,在每个零件可行的区间中按照正态分布随机的选取一个标定值和选取一个容差值作为一种方案,然后通过蒙特卡罗算法仿真出大量的方案,从中选取一个最佳的。另一个例子就是去年的彩票第二问,要求设计一种更好的方案,首先方案的优劣取决于很多复杂的因素,同样不可能刻画出一个模型进行求解,只能靠随机仿真模拟。

建立数学模型的方法、步骤、特点及分类 ()

薅§16.3建立数学模型的方法、步骤、特点及分类 螁[学习目标] 蚀1.能表述建立数学模型的方法、步骤; 蒆2.能表述建立数学模型的逼真性、可行性、渐进性、强健性、可转移性、非预制性、条理性、技艺性和局限性等特点;; 羆3.能表述数学建模的分类; 蒃4.会采用灵活的表述方法建立数学模型; 葿5.培养建模的想象力和洞察力。 薆一、建立数学模型的方法和步骤 膃—般说来建立数学模型的方法大体上可分为两大类、一类是机理分析方法,一类是测试分析方法.机理分析是根据对现实对象特性的认识、分析其因果关系,找出反映内部机理的规律,建立的模型常有明确的物理或现实意义.§16.2节的示例都属于机理分析方法。测试分折将研究对象视为一个“黑箱”系统,内部机理无法直接寻求,可以测量系统的输人输出数据、并以此为基础运用统计分析方法,按照事先确定的准则在某一类模型中选出一个与数据拟合得最好的模型。这种方法称为系统辨识(SystemIdentification).将这两种方法结合起来也是常用的建模方法。即用机理分析建立模型的结构,用系统辨识确定模型的参数. 袁可以看出,用上面的哪一类方法建模主要是根据我们对研究对象的了解程度和建模目的决定的.如果掌握了机理方面的一定知识,模型也要求具有反映内部特性的物理意义。那么应该以机理分析方法为主.当然,若需要模型参数的具体数值,还可以用系统辨识或其他统计方法得到.如果对象的内部机理基本上没掌握,模型也不用于分析内部特性,譬如仅用来做输出预报,则可以系统辩识方法为主.系统辨识是一门专门学科,需要一定的控制理论和随机过程方面的知识.以下所谓建模方法只指机理分析。 膈建模要经过哪些步骤并没有一定的模式,通常与实际问题的性质、建模的目的等有关,从 薆§16.2节的几个例子也可以看出这点.下面给出建模的—般步骤,如图16-5所示. 薄图16-5建模步骤示意图 蚃模型准备首先要了解问题的实际背景,明确建模的目的搜集建模必需的各种信息如现象、数据等,尽量弄清对象的特征,由此初步确定用哪一类模型,总之是做好建模的准备工作.情况明才能方法对,这一步一定不能忽视,碰到问题要虚心向从事实际工作的同志请教,尽量掌握第一手资料. 芁模型假设根据对象的特征和建模的目的,对问题进行必要的、合理的简化,用精确的语言做出假设,可以说是建模的关键一步.一般地说,一个实际问题不经过简化假设就很难翻译成数学问题,即使可能,也很难求解.不同的简化假设会得到不同的模型.假设作得不合理或过份简单,会导致模型失败或部分失败,于是应该修改和补充假设;假设作得过分详细,试图把复杂对象的各方面因素都考虑进去,可能使你很难甚至无法继续下一步的工作.通常,作假设的依据,一是出于对问题内在规律的认识,二是来自对数据或现象的分析,也可以是二者的综合.作假设时既要运用与问题相关的物理、化学、生物、经济等方面的知识,又要充分发挥想象力、洞察力和判断力,善于辨别问题的主次,果断地抓住主要因素,舍弃次要因素,尽量将问题线性化、均匀化.经验在这里也常起重要作用.写出假设时,语言要精确,就象做习题时写出已知条件那样.

DNA序列分类实验报告

数理学院专业实践报告题目: 专业 学生姓名 班级学号 指导教师(签字) 指导教师职称 实习单位 负责人签字 日期

1.2000 年6月,人类基因组计划中DNA 全序列草图完成,预计2001 年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4 个字符A,T,C,G 按一定顺序排成的长约30 亿的序列,其中没有“断句”也没有标点符号,除了这4 个字符表示4 种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA 全序列具有什么结构,由这4 个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。虽然人类对这部“天书”知之甚少,但也发现了DNA 序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4 个字符组成的64 种不同的3 字符串,其中大多数用于编码构成蛋白质的20 种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A 和T 的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA 序列的结构也取得了 一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA 序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA 全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。作为研究 DNA 序列的结构的尝试,提出以下对序列集合进行分类的问题:

数学建模统计模型

数学建模

论文题目: 一个医药公司的新药研究部门为了掌握一种新止痛剂的疗效,设计了一个药物试验,给患有同种疾病的病人使用这种新止痛剂的以下4个剂量中的某一个:2 g,5 g,7 g和10 g,并记录每个病人病痛明显减轻的时间(以分钟计). 为了解新药的疗效与病人性别和血压有什么关系,试验过程中研究人员把病人按性别及血压的低、中、高三档平均分配来进行测试. 通过比较每个病人血压的历史数据,从低到高分成3组,分别记作,和. 实验结束后,公司的记录结果见下表(性别以0表示女,1表示男). 请你为该公司建立一个数学模型,根据病人用药的剂量、性别和血压组别,预测出服药后病痛明显减轻的时间.

一、摘要 在农某医药公司为了掌握一种新止痛药的疗效,设计了一个药物实验,通过观测病人性别、血压和用药剂量与病痛时间的关系,预测服药后病痛明显减轻的时间。我们运用数学统计工具m i n i t a b软件,对用药剂量,性别和血压组别与病痛减轻

时间之间的数据进行深层次地处理并加以讨论概率值P (是否<)和拟合度R-S q的值是否更大(越大,说明模型越好)。 首先,假设用药剂量、性别和血压组别与病痛减轻时间之间具有线性关系,我们建立了模型Ⅰ。对模型Ⅰ用m i n i t a b 软件进行回归分析,结果偏差较大,说明不是单纯的线性关系,然后对不同性别分开讨论,增加血压和用药剂量的交叉项,我们在模型Ⅰ的基础上建立了模型Ⅱ,用m i n i t a b软件进行回归分析后,用药剂量对病痛减轻时间不显着,于是我们有引进了用药剂量的平方项,改进模型Ⅱ建立了模型Ⅲ,用m i n i t a b 软件进行回归分析后,结果合理。最终确定了女性病人服药后病痛减轻时间与用药剂量、性别和血压组别的关系模型: Y=1x 3x 1x 3x 2 1 x 对模型Ⅱ和模型Ⅲ关于男性病人用m i n i t a b软件进行回归分析,结果偏差依然较大,于是改进模型Ⅲ建立了模型Ⅳ,用m i n i t a b软件进行回归分析后,结果合理。最终确定了男性病人服药后病痛减轻时间与用药剂量、性别和血压组别的关系模 型:Y=1x1x 3x 2 1 x关键词止痛剂药剂量性别病痛减轻时 间

数学模型的分类有哪些

数学模型的分类有哪些? 数学模型可以按照不同的方式分类,下面介绍常用的几种. 1.按照模型的应用领域(或所属学科)分:如人口模型、交通模型、环境模型、生态模型、城镇规划模型、水资源模型、再生资源利用模型、污染模型等.范畴更大一些则形成许多边缘学科如生物数学、医学数学、地质数学、数量经济学、数学社会学等. 2.按照建立模型的数学方法(或所属数学分支)分:如初等数学模型、几何模型、微分方程模型、图论模型、马氏链模型、规划论模型等. 按第一种方法分类的数学模型教科书中,着重于某一专门领域中用不同方法建立模型,而按第二种方法分类的书里,是用属于不同领域的现成的数学模型来解释某种数学技巧的应用.在本书中我们重点放在如何应用读者已具备的基本数学知识在各个不同领域中建模. 3.按照模型的表现特性又有几种分法: 确定性模型和随机性模型取决于是否考虑随机因素的影响.近年来随着数学的发展,又有所谓突变性模型和模糊性模型. 静态模型和动态模型取决于是否考虑时间因素引起的变化. 线性模型和非线性模型取决于模型的基本关系,如微分方程是否是线性的. 离散模型和连续模型指模型中的变量(主要是时间变量)取为离散还是连续的. 虽然从本质上讲大多数实际问题是随机性的、动态的、非线性的,但是由于确定性、静态、线性模型容易处理,并且往往可以作为初步的近似来解决问题,所以建模时常先考虑确定性、静态、线性模型.连续模型便于利用微积分方法求解,作理论分析,而离散模型便于在计算机上作数值计算,所以用哪种模型要看具体问题而定.在具体的建模过程中将连续模型离散化,或将离散变量视作连续,也是常采用的方法. 4.按照建模目的分:有描述模型、分析模型、预报模型、优化模型、决策模型、控制模型等. 5.按照对模型结构的了解程度分:有所谓白箱模型、灰箱模型、黑箱模型.这是把研究对象比喻成一只箱子里的机关,要通过建模来揭示它的奥妙.白箱主要包括用力学、热学、电学等一些机理相当清楚的学科描述的现象以及相应的工程技术问题,这方面的模型大多已经基本确定,还需深入研究的主要是优化设计和控制等问题了.灰箱主要指生态、气象、经济、交通等领域中机理尚不十分清楚的现象,在建立和改善模型方面都还不同程度地有许多工作要做.至于黑箱则主要指生命科学和社会科学等领域中一些机理(数量关系方面)很不清楚的现象.有些工程技术问题虽然主要基于物理、化学原理,但由于因素众多、关系复杂和观测困难等原因也常作为灰箱或黑箱模型处理.当然,白、灰、黑之间并没有明显的界限,而且随着科学技术的发展,箱子的“颜色”必然是逐渐由暗变亮的.

19398-数学建模-DNA序列分类模型

DNA序列分类模型 陈荣生张海军张旭东指导教师:数模组 海军航空工程学院 摘要本文讨论了在给定A类和B类各10个DNA序列的情况下,如何找出判断DNA 序列类型的方法,并具体分析了DNA序列的局部特征,最后将总体特征与局部特征综合考虑。 文中我们先根据给出的已知类型的20组DNA序列,考虑了四个碱基及其组合形式出现的频率,以此为研究对象进行深入研究,并建立了两个数学模型,即信息熵模型和Z曲线模型,最后还给出了模型的改进方向。 本文采取的用Z曲线来研究DNA序列的方法很有意义。 一、问题的重述 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,DNA全序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。人们发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A 和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列,其中序列标号1—10 为A类,11-20为B 类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类; B类。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 2),用你的分类方法对182个自然DNA序列进行分类,像1)一样地给出分类结果。二、问题的分析 为了找出分类方法,我们可以省略细节,突出特征,以某 种碱基出现的频率或以两种甚至三种碱基的组合出现的频率, 或者以几种碱基出现的频率之和为依据来考虑。现分别就A、 B两组DNA序列针对以下20个方面做一些简单分析: 1)A出现的频率; 2)C出现的频率; 3)G出现的频率; 4)T出现的频率;

相关主题