搜档网
当前位置:搜档网 › 数学建模 DNA分类

数学建模 DNA分类

数学建模 DNA分类
数学建模 DNA分类

基于模糊数学的DNA序列分类

摘要

问题一给出20个已知类别的人工制造的序列,其中序列标号1—10 为A类,11-20为B类。要求从中提取特征,构造分类方法,并用这些已知类别的序列,衡量所选方法是否足够好。然后用认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类。问题二要求我们对数据文件Nat-model-data 中给出了182个自然DNA序列用我们的分类方法进行分类,像1)一样地给出分类结果。

由于题目所给的碱基序列并没有明显的结构特征,于是我们选择运用模糊聚类分析的方法为A、B两类碱基序列构造分类方法,在运用模糊识别的方法对剩余碱基进行归类。

对于问题一,我们首先运用MATLAB对编号为前20的碱基序列的a、t、g、c的数目进行统计,并算出其在序列中占据的百分比,便得到序列的模糊矩阵。然后用切比雪夫距离法求该模糊矩阵的模糊相似矩阵。对相似矩阵取不同截集,把对应值为1的对象归为一类,找到合适的截集,使编号为前10的序列归为一类,编号为11-20的归为一类。我们的归类结果为:A类:1、2、3、5、6、6、7、8、9、10,B类:11、12、13、14、15、16、18、19、20,非AB类:4、17。对于剩余的20个未知的碱基序列,我们使用模糊识别的方法进行归类。我们使用每种碱基在序列中所占比例为识别规则,于是需先求出A、B和非AB三种类别所包含序列的个碱基百分比的平均值,得到当做识别规则,以备使用。首先求出20条未知序列中a、t、g、c四种碱基在序列中所占百分比,得到模糊矩阵。然后用所求判别规则和未知碱基的模糊矩阵求每条未知碱基序列与已知碱基序列的贴近度,使用择近原则对每条未知序列进行归类。归类结果为:A类:22、23、25、27、29、34、35、36、37,B类:21、24、26、28、31、32、33、38、39、40,非AB类:30。

对于问题二,我们可采用问题一种对20条未知序列使用的归类方法进行归类。即采用模糊识别的方法。首先对这182四种碱基在序列中所占百分比,得到模糊矩阵。以分好的A、B、非AB三类的百分比平均值为识别规则,求出每条序列的贴近度,根据择近原则对每天序列进行归类,归类结果见附录一。

关键词:模糊聚类分析模糊识别择近原则碱基序列

一、问题重述

1.1问题的提出

2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。

虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。

作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:

1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):

A类; B类。

请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。

这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载:网易网址:https://www.sodocs.net/doc/c411071026.html,教育频道在线试题;

教育网:https://www.sodocs.net/doc/c411071026.html, News mcm2000

教育网: https://www.sodocs.net/doc/c411071026.html,/mcm

2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。

提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等。

二、模型假设

1、假设不考虑DNA序列的结构功能;

三、问题分析

对于问题一:

由于题目给出的DNA序列并没有十分明显的结构特征,想要通过简单指标对

其分类,是很难实现的。于是我们考虑使用模糊数学中的模糊聚类分析对其进行

分类。然后使用模糊识别对剩余的未知序列进行归类

附录一

182条碱基序列分类

A类:

4 5 8 13 14 15 16 18 19 20 21 27 31 32 33 35 38 39 41 42 44 45 49 52 55 58 59 60 61 62 64 66 67 68 69 70 71 73 79 81 82 89 90 91 100 101 104 105 106 109 111 112 115 117 118 120 124 132 134 136 139 141 145 148 153 154 155 158 171 172 176 177

B类:

1 2 3 6 7 9 11 17 22 23 24 25 26 29 30 36 37 43 47 48 53 54 56 57 63 72 76 78 84 85 86 88 92 95 103 107 108 113 116 119 122 123 126 133 135 137 144 149 156 157 159 160 161 162 163 164 165 167 169 170 173 174 175 178 182

非AB类:

10 12 28 34 40 46 50 51 65 74 75 77 80 83 87 93 94 96 97 98 99 102 110 114 121 125 127 128 129 130 131 138 140 142 143 146 147 150 151 152 166 168 179 180 181

20条已知DNA序列分类图

A=importdata('C:\Users\Administrator\Desktop\暑假数模培训\zuoye3\art-model-data.txt')%导入数据文件

N=zeros(40,4);

for i=1:40 %统计每条序列中碱基个数并救出百分比

n=length(A{i}(1,:));

for j=1:n

if A{i}(j)=='a'

N(i,1)= N(i,1)+1;

elseif A{i}(j)=='t'

N(i,2)= N(i,2)+1;

elseif A{i}(j)=='g'

N(i,3)= N(i,3)+1;

elseif A{i}(j)=='c'

N(i,4)= N(i,4)+1;

end

end

for j=1:4

N(i,j)=N(i,j)/(n-2);

end

end

R=zeros(20,20); %求出模糊相似矩阵

for i=1:20

for j=1:20

B=0;

for k=1:4

b=abs(N(i,k)-N(j,k));

if B

B=b;

end

end

R(i,j)=1-B;

end

end

%画出聚类图

[m,n]=size(R);%获得矩阵的行列数

if(m~=n|m==0) return ;end

for(i=1:n) R(i,i)=1;%修正错误

for(j=i+1:n)

if(R(i,j)<0) R(i,j)=0;

elseif(R(i,j)>1) R(i,j)=1;end

R(i,j)=round(10000*R(i,j))/10000;%保留四位小数

R(j,i)=R(i,j);

end

end

js0=0;

while(1)%求传递闭包

R1=Max_Min(R,R);

js0=js0+1;

if(R1==R) break;else R=R1;end

end

Imd(1)=1;k=1;

for(i=1:n) for(j=i+1:n) pd=1;%找出所有不相同的元素

for(x=1:k)

if(R(i,j)==Imd(x)) pd=0;break;end;end

if(pd) k=k+1;Imd(k)=R(i,j);end

end;end

for(i=1:k-1) for(j=i+1:k)

if(Imd(i)

x=Imd(j);Imd(j)=Imd(i);Imd(i)=x;

end;end;end

for(x=1:k) %按Imd(x)分类,分类数为flsz(x),临时用Sz记录元素序号 js=0;flsz(x)=0;

for(i=1:n) pd=1;

for(y=1:js) if(Sz(y)==i) pd=0;break;end;end

if(pd)

for(j=1:n)

if(R(i,j)>=Imd(x)) js=js+1;Sz(js)=j;end;end

flsz(x)=flsz(x)+1;

end

end

end

for(i=1:k-1)

for(j=i+1:k)

if(flsz(j)==flsz(i)) flsz(j)=0;end;end;end

fl=0;%排除相同的分类

for(i=1:k) if(flsz(i)) fl=fl+1;Imd(fl)=Imd(i);end;end

for(i=1:n) xhsz(i)=i;end

for(x=1:fl)%获得分类情况:对元素分类进行排序

js=0;flsz(x)=0;

for(i=1:n) pd=1;

for(y=1:js) if(Sz(y)==i) pd=0;break;end;end

if(pd) if(js==0) y=0;end

for(j=1:n) if(R(i,j)>=Imd(x)) js=js+1;Sz(js)=j;end;end flsz(x)=flsz(x)+1;

Sz0(flsz(x))=js-y;

end

end

js0=0;

for(i=1:flsz(x))

for(j=1:Sz0(i)) Sz1(j)=Sz(js0+j);end

for(j=1:n) for(y=1:Sz0(i))

if(xhsz(j)==Sz1(y))

js0=js0+1;Sz(js0)=xhsz(j);end;end;end

end

for(i=1:n) xhsz(i)=Sz(i);end

end

for(x=1:fl)%获得分类情况:每一子类的元素个数

js=0;flsz(x)=0;

for(i=1:n) pd=1;

for(y=1:js) if(Sz(y)==i) pd=0;break;end;end

if(pd) if(js==0) y=0;end

for(j=1:n) if(R(i,j)>=Imd(x)) js=js+1;Sz(js)=j;end;end flsz(x)=flsz(x)+1;Sz0(flsz(x))=js-y;

end

end

js0=1;

for(i=1:flsz(x)) y=1;

for(j=1:flsz(x))

if(Sz(y)==xhsz(js0))

flqksz(x,i)=Sz0(j);js0=js0+Sz0(j);break;end

y=y+Sz0(j);

end

end

end

F_dtjltx=figure('name','动态聚类图','color','w');

axis('off');

Kd=30;Gd=40;y=fl*Gd+Gd;lx=80;

text(24,y+Gd/2,'λ');

for(i=1:n)

text(lx-5+i*Kd-0.4*Kd*(xhsz(i)>9),y+Gd/2,int2str(xhsz(i)));

line([lx+i*Kd,lx+i*Kd],[y,y-Gd]);

linesz(i)=lx+i*Kd;

end

text(lx*1.5+i*Kd,y+Gd/2,'分类数');

y=y-Gd;

for(x=1:fl)

text(8,y-Gd/2,num2str(Imd(x)));

js0=1;js1=0;

if(x==1)

for(i=1:flsz(x))

js1=flqksz(x,i)-1;

if(js1) line([linesz(js0),linesz(js0+js1)],[y,y]);end

line([(linesz(js0+js1)+linesz(js0))/2,(linesz(js0+js1)+linesz(js0))/2 ],[y,y-Gd]);

linesz(i)=(linesz(js0+js1)+linesz(js0))/2;

js0=js0+js1+1;

end

else for i=1:flsz(x)

D1=zeros(9,4);%把A、B和非AB类型的模糊矩阵分开

D2=zeros(9,4);

D3=zeros(2,4);

t1=1;

t2=1;

t3=1;

for i=1:20

if i<=10&i~=4

for j=1:4

D1(t1,j)=N(i,j);

end

t1=t1+1;

end

if i>10&i~=17

for j=1:4

D2(t2,j)=N(i,j);

end

t2=t2+1;

end

if i==17|i==4

for j=1:4

D3(t3,j)=N(i,j);

end

t3=t3+1;

end

end

A1=zeros(1,4);%每个类型碱基百分比的平均数

B1=zeros(1,4);

C1=zeros(1,4);

for i=1:4

B=0;

for j=1:9

B=B+D1(j,i);

end

A1(i)=B/9;

end

for i=1:4

B=0;

for j=1:9

B=B+D2(j,i);

end

B1(i)=B/9;

end

for i=1:4

B=0;

for j=1:2

B=B+D3(j,i);

end

C1(i)=B/2;

end

%用择近原则进行模糊识别,对剩余20条碱基序列进行分类

L1=zeros(20,3); t1=1;

t2=1;

t3=1;

for i=1:20

A2=0;

B2=0;

C2=0;

a1=max(min(N(20+i,:),A1));

a2=min(max(N(20+i,:),A1));

b1=max(min(N(20+i,:),B1));

b2=min(max(N(20+i,:),B1));

c1=max(min(N(20+i,:),C1));

c2=min(max(N(20+i,:),C1));

A2=(a1+(1-a2))/2;

B2=(b1+(1-b2))/2;

C2=(c1+(1-c2))/2;

if A2>=B2&A2>=C2

L1(t1,1)=20+i;

t1=t1+1;

elseif B2>=A2&B2>=C2

L1(t2,2)=20+i;

t2=t2+1;

elseif C2>=B2&C2>=A2

L1(t3,3)=20+i;

t3=t3+1;

end

end

%导入182段碱基序列,并计算每段中各碱基碱基个数

C=importdata('C:\Users\Administrator\Desktop\暑假数模培训\zuoye3\Nat-model-data.txt');

X=zeros(182,4);

t=1;

for i=1:14108

n=length(C{i}(:));

for j=1:n

if C{i}(j)=='a'

X(t,1)= X(t,1)+1;

elseif C{i}(j)=='t'

X(t,2)= X(t,2)+1;

elseif C{i}(j)=='g'

X(t,3)= X(t,3)+1;

elseif C{i}(j)=='c'

X(t,4)= X(t,4)+1;

elseif C{i}(j)==':'

t=t+1;

end

end

end

%求碱基百分比

for t=1:182

a=X(t,1)+X(t,2)+X(t,3)+X(t,4);

for j=1:4

X(t,j)=X(t,j)/a;

end

end

%求贴近程度并运用择近原则对序列分类(模糊识别)L=zeros(80,3);

t1=1;

t2=1;

t3=1;

for i=1:182

A2=0;

B2=0;

C2=0;

a1=max(min(X(i,:),A1));

a2=min(max(X(i,:),A1));

b1=max(min(X(i,:),B1));

b2=min(max(X(i,:),B1));

c1=max(min(X(i,:),C1));

c2=min(max(X(i,:),C1));

A2=(a1+(1-a2))/2;

B2=(b1+(1-b2))/2;

C2=(c1+(1-c2))/2;

if A2>=B2&A2>=C2

L(t1,1)=i;

t1=t1+1;

elseif B2>=A2&B2>=C2 L(t2,2)=i;

t2=t2+1;

elseif C2>=B2&C2>=A2 L(t3,3)=i;

t3=t3+1;

end

end

从几个生活实例看数学建模及其应用

从几个生活实例看数学建模及其应用 [内容摘要] 本文通过几个生活中的事例,并运用数学建模,来分析问题,以便更方便的得出解决问题的方案。从中通过将数学建模的抽象理论实例化,生动化,我们能够更清楚看出数学在生活中无处不在,无处不用。 [关键词] 数学建模生活数学 数学,作为一门研究现实世界数量关系和空间形式的科学,与生活是息息相关的。作为用数学方法解决实际问题的第一步,数学建模自然有着与数学相当的意义。在各种不同的领域中,人们一直在运用数学建模来描绘,刻画某种生活规律或者生活现象,以便找到其中解决问题的最佳方案或得到最佳结论。例如,运用模拟近似法建模的方法,在社会科学,生物学,医学,经济些学等学科的实践中,来建立微分方程模型。在这些领域中的一些现象的规律性仍是未知的,或者问题太过复杂,所以在实际应用中总要通过一些简化,近似的模型来与实际情况比对,从而更加容易的得出规律性。 本文通过数学模型在生活中运用的几个例子,来了解,探讨数学模型的相关知识。 一、数学模型的简介 早在学习初等代数的时候,就已经碰到过数学模型了,例如在三个村庄之间建立一个粮仓,使其到三个村子的距离只和最短。我们可以通过建立方程组以及线性规划来解决该问题。

当然,真实实际问题的数学建模通常要复杂得多,但是建立数学建模的基本内容已经包含在解决这类代数应用题的过程中了。那就是:根据建立模型的目的和问题的背景作出必要的简化假设;用字母表示待求的未知量;利用相应的物理或其他规律,列出数学式子;求出数学上的解答;用这个答案解释问题;最后用实际现象来验证结果。 一般来说,数学模型可以描述为,对于现实世界的一个特定对象,为了一个特定目的,根据特有的内在规律,作出一些必要的简化假设,运用适当的数学工具,得到的一个数学结构。 二、数学模型的意义 1)在一般工程技术领域,数学建模仍然大有用武之地。 2)在高新技术领域,数学建模几乎是必不可少的工具。 3)数学迅速进入一些新领域,为数学建模开拓了许多新的处女地。 三、数学建模实例 例1、某饲养场每天投入6元资金用于饲养、设备、人力,估计可使一头60kg重的生猪每天增重。目前生猪出售的市场价格为12元/kg,但是预测每天会降低元,问该场应该什么时候出售这样的生猪问题分析投入资金可使生猪体重随时间增长,但售价随时间减少,应该存在一个最佳的出售时机,使获得利润最大。根据给出的条件,可作出如下的简化假设。 模型假设每天投入6元资金使生猪的体重每天增加的常数为r(=);生猪出售的市场价格每天降低常数g(=元)。

数学建模方法及其应用

一、层次分析法 层次分析法[1] (analytic hierarchy process,AHP)是美国著名的运筹学家T.L.Saaty教授于20世纪70年代初首先提出的一种定性与定量分析相结合的多准则决策方法[2,3,4].该方法是社会、经济系统决策的有效工具,目前在工程计划、资源分配、方案排序、政策制定、冲突问题、性能评价等方面都有广泛的应用. (一) 层次分析法的基本原理 层次分析法的核心问题是排序,包括递阶层次结构原理、测度原理和排序原理[5].下面分别予以介绍.1.递阶层次结构原理 一个复杂的结构问题可以分解为它的组成部分或因素,即目标、准则、方案等.每一个因素称为元素.按照属性的不同把这些元素分组形成互不相交的层次,上一层的元素对相邻的下一层的全部或部分元素起支配作用,形成按层次自上而下的逐层支配关系.具有这种性质的层次称为递阶层次. 2.测度原理 决策就是要从一组已知的方案中选择理想方案,而理想方案一般是在一定的准则下通过使效用函数极大化而产生的.然而对于社会、经济系统的决策模型来说,常常难以定量测度.因此,层次分析法的核心是决策模型中各因素的测度化.

3. 排序原理 层次分析法的排序问题,实质上是一组元素两两比较其重要性,计算元素相对重要性的测度问题. (二) 层次分析法的基本步骤 层次分析法的基本思路与人对一个复杂的决策问题的思维、判断过程大体上是一致的[1]. 1. 成对比较矩阵和权向量 为了能够尽可能地减少性质不同的诸因素相互比较的困难,提高结果的准确度.T .L .Saaty 等人的作法,一是不把所有因素放在一起比较,而是两两相互对比,二是对比时采用相对尺度. 假设要比较某一层n 个因素n C C ,,1 对上层一个因素O 的影响,每次取两个因素i C 和j C ,用ij a 表示i C 和j C 对 O 的影响之比,全部比较结果可用成对比较阵 ()1 ,0,ij ij ji n n ij A a a a a ?=>= 表示,A 称为正互反矩阵. 一般地,如果一个正互反阵A 满足: ,ij jk ik a a a ?=,,1,2, ,i j k n = (1) 则A 称为一致性矩阵,简称一致阵.容易证明n 阶一致阵A 有下列性质:

2000年全国大学生数学建模竞赛A题 DNA序列分类

2000年全国大学生数学建模竞赛A题DNA序列分类 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3 字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,1 1-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—4 0)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类__________ ;B类_______________ 。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载: 网易网址:https://www.sodocs.net/doc/c411071026.html, 教育频道在线试题; 教育网: https://www.sodocs.net/doc/c411071026.html, New mcm2000 教育网: https://www.sodocs.net/doc/c411071026.html,/mcm 2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。 提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列

数学建模DNA序列分类模型终

DNA序列分类模型DNA序列分类模型

毕业设计(论文)原创性声明和使用授权说明 原创性声明 本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。 作者签名:日期: 指导教师签名:日期: 使用授权说明 本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 作者签名:日期:

学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 涉密论文按学校规定处理。 作者签名:日期:年月日 导师签名:日期:年月日

DNA序列的一种分类方法

收稿日期:2002203210 作者简介:刘志(1965— )男,山东东平人,空军工程大学工程师文章编号:100123857(2002)Sup.20114203 D NA 序列的一种分类方法 刘 志 (空军工程大学导弹学院,陕西西安713800) 摘 要:基于小波变换和相关技术,提出了一种DNA 序列的分类方法.首先将DNA 序列转换成数字序列,然后对此序列进行Matlab 快速分解,计算未知类别序列与已知类别序列的相关系数,由此判定序列的类别.结果表明,该方法是切实可行的. 关键词:DNA 序列;相关技术;小波变换 中图分类号:O357 文献标识码:A 2000年6月,人类基因组计划中DNA 全部草图完成,预计2002年可以完成精确的全序列图,此后人类将拥有一本记录着自己生老病死及遗传进化的全部信息的“天书”.这本大自然写成的“天书”是由4个字符A ,T ,C ,G 按一定的顺序排成的长约30亿的序列,其中没有“断句”也没有“标点符号”,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂.破译这部世界上最巨量信息的天书是21世纪最重要的任务之一.虽然人类对这部天书知之甚少,但也发现了DNA 序列中的一些规律和结构.例如,在全序列中有一些是用于,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸.此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等.本文利用小波变换和相关技术,提出了一种DNA 序列的分类方法. 1 Matlab 快速算法 信号的小波分析相当于对信号加上一个可调的时—频窗.Matlab 根据多分辨分析的观点,利用共轭正交镜像滤波器,给出了离散小波变换的金字塔算法,使信号快速分解和重构得以实现.在Matlab 算法基础上,进一步对高频信号进行分解,将信号分解到不同的频带上,滤波时根据需要,选取所需频带内的信号进行重构,就可以完成信号的多通带滤波.小波变换不改变信号所引起的小波变换系数的极值点的位置,而噪声所引起的小波变换系数的极值点主要表现在第一、二尺度上,且随着尺度增大,小波系数的极值点越来越少.由第三级小波变换系数重构的信号的自相关函数的极大值的位置和原函数的自相关函数的极大值的位置完全相同,这是本文所提方案的依据.由第三级小波变换系数重构的信号的自相关函数图形比较光滑,而且,没有影响自相关函数的极大值的位置.此结论对信号检测非常有用. 根据多分辨分析理论,在二进正交小波基下,Matlab 快速算法[1]为 A k j f =∑n ∈Z h (n -2k )A n j -1f , j =1,2,…,J .第30卷 专 辑 陕西师范大学学报(自然科学版)Vol.30 Sup. 2002年5月Journal of Shaanxi Normal University (Natural Science Edition )May.2002

初中数学建模方法及应用

龙源期刊网 https://www.sodocs.net/doc/c411071026.html, 初中数学建模方法及应用 作者:肖永刚 来源:《新课程·中学》2017年第03期 摘要:在新课标中要求培养学生的创新能力,在初中数学教学中培养学生的建模能力, 是培养数学创新能力的重要方法,也能增强学生利用数学知识解决问题的能力。对培养初中生数学建模方法及应用进行了论述。 关键词:初中数学;建模思想;数学应用 利用数学建模的方法是学习初中数学的新方法,是素质教育和新课标的要求,能为学生的数学能力发展提供全新途径,提高学生运用数学工具解决问题的能力,让学生在用数学工具解决问题中体会到数学学习的意义,从而提高数学学习兴趣。 一、数学建模的概念 数学建模就是对具体问题分析并简化后,运用数学知识,找出解决方法并利用数学式子来求解,从而使问题得以解决。数学建模方法有以下几个步骤:一是对具体问题分析并简化,然后用数学知识建立关系式(模型),二是求解数学式子,三是根据实际情况检验并选出正确答案。初中阶段数学建模常用方法有:函数模型、不等式模型、方程模型、几何模型等。 二、数学建模的方法步骤 要培养学生的数学建模方法,可按以下方法步骤进行: 1.分析问题题意为建模做准备。对具体问题包含的已知条件和数量关系进行分析,根据问题的特点,选择使用数学知识建立模型。 2.简化实际问题假设数学模型。对实际问题进行一定的简化,再根据问题的特征和要求以及解题的目的,对模型进行假设,要找出起关键作用的因素和主要变量。 3.利用恰当工具建立数学模型。通过建立恰当的数学式子,来建立模型中各变量之间的关系式,以此来完成数学模型的 建立。 4.解答数学问题找出问题答案。通过对模型中的数学问题进行解答,找出实际问题的答案。

数学建模竞赛试题--基因识别问题及其算法实现

基因识别问题及其算法实现 一、背景介绍 DNA 是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleic acid ,缩写为DNA )。DNA 分子是一种长链聚合物,DNA 序列由腺嘌呤(Adenine, A ),鸟嘌呤(Guanine, G ),胞嘧啶(Cytosine, C ),胸腺嘧啶(Thymine, T )这四种核苷酸(nucleotide )符号按一定的顺序连接而成。其中带有遗传讯息的DNA 片段称为基因(Gene )(见图1第一行)。其他的DNA 序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。 在真核生物的DNA 序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence )片段,称为外显子(Exon ),不编码的部分称为内含子(Intron )。外显子在DNA 序列剪接(Splicing )后仍然会被保存下来,并可在 图1真核生物DNA 序列(基因序列)结构示意图 蛋白质合成过程中被转录(transcription )、复制(replication )而合成为蛋白质(见图2)。DNA 序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(protein )上去并实现各种生命功能。 DNA 序列 外显子(Exon ) 内含子(Intron)

DNA序列 剪接、转录、复制 蛋白质序列 图2蛋白质结构示意图 对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。” 随着世界人类基因组工程计划的顺利完成,通过物理或数学的方法从大量的DNA序列中获取丰富的生物信息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一个研究热点。 二、数字序列映射与频谱3-周期性: 对给定的DNA序列,怎么去识别出其中的编码序列(即外显子),也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。 基因预测问题的一类方法是基于统计学的[1]。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站https://www.sodocs.net/doc/c411071026.html,/GENSCAN.html提供的基因识别软件GENSCAN(由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据

DNA序列分类实验报告

数理学院专业实践报告题目: 专业 学生姓名 班级学号 指导教师(签字) 指导教师职称 实习单位 负责人签字 日期

1.2000 年6月,人类基因组计划中DNA 全序列草图完成,预计2001 年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4 个字符A,T,C,G 按一定顺序排成的长约30 亿的序列,其中没有“断句”也没有标点符号,除了这4 个字符表示4 种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA 全序列具有什么结构,由这4 个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。虽然人类对这部“天书”知之甚少,但也发现了DNA 序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4 个字符组成的64 种不同的3 字符串,其中大多数用于编码构成蛋白质的20 种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A 和T 的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA 序列的结构也取得了 一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA 序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA 全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。作为研究 DNA 序列的结构的尝试,提出以下对序列集合进行分类的问题:

数学建模案例分析插值与拟合方法建模1数据插值方法及应用

第十章 插值与拟合方法建模 在生产实际中,常常要处理由实验或测量所得到的一批离散数据,插值与拟合方法就是要通过这些数据去确定某一类已经函数的参数,或寻求某个近似函数使之与已知数据有较高的拟合精度。插值与拟合的方法很多,这里主要介绍线性插值方法、多项式插值方法和样条插值方法,以及最小二乘拟合方法在实际问题中的应用。相应的理论和算法是数值分析的内容,这里不作详细介绍,请参阅有关的书籍。 §1 数据插值方法及应用 在生产实践和科学研究中,常常有这样的问题:由实验或测量得到变量间的一批离散样点,要求由此建立变量之间的函数关系或得到样点之外的数据。与此有关的一类问题是当原始数据 ),(,),,(),,(1100n n y x y x y x 精度较高,要求确定一个初等函数)(x P y =(一般用多项式或分段 多项式函数)通过已知各数据点(节点),即n i x P y i i ,,1,0,)( ==,或要求得函数在另外一些点(插值点)处的数值,这便是插值问题。 1、分段线性插值 这是最通俗的一种方法,直观上就是将各数据点用折线连接起来。如果 b x x x a n =<<<= 10 那么分段线性插值公式为 n i x x x y x x x x y x x x x x P i i i i i i i i i i ,,2,1,,)(11 1 11 =≤<--+--= ----- 可以证明,当分点足够细时,分段线性插值是收敛的。其缺点是不能形成一条光滑曲线。 例1、已知欧洲一个国家的地图,为了算出它的国土面积,对地图作了如下测量:以由西向东方向为x 轴,由南向北方向为y 轴,选择方便的原点,并将从最西边界点到最东边界点在x 轴上的区间适当的分为若干段,在每个分点的y 方向测出南边界点和北边界点的y 坐标y1和y2,这样就得到下表的数据(单位:mm )。

数学建模模型与应用

Mathematica软件常用功能 【实验目的】 1. 用Mathematica软件进行各种数学处理; 2. 用Mathematica软件进行作图; 3. 用Mathematica软件编写程序. 【注意事项】 Mathematica中大写小写是有区别的,如Name、name、NAME等是不同的变量名或函数名。 系统所提供的功能大部分以系统函数的形式给出,内部函数一般写全称,而且一定是以大写英文字母开头,如Sin[x],Conjugate[z]等。 乘法即可以用*,又可以用空格表示,如2 3=2*3=6 ,x y,2 Sin[x]等;乘幂可以用“^”表示,如x^0.5,Tan[x]^y。 自定义的变量可以取几乎任意的名称,长度不限,但不可以数字开头。当你赋予变量任何一个值,除非你明显地改变该值或使用Clear[变量名]或“变量名=.”取消该值为止,它将始终保持原值不变。 一定要注意四种括号的用法:()圆括号表示项的结合顺序,如 (x+(y^x+1/(2x)));[]方括号表示函数,如Log[x],BesselJ[x,1];{}大括号表示一个“表”(一组数字、任意表达式、函数等的集合),如 {2x,Sin[12 Pi],{1+A,y*x}};[[]]双方括号表示“表”或“表达式”的下标,如a[[2,3]]、{1,2,3}[[1]]=1。 Mathematica的语句书写十分方便,一个语句可以分为多行写,同一行可以写多个语句(但要以分号间隔)。当语句以分号结束时,语句计算后不做输出(输出语句除外),否则将输出计算的结果。 命令行“Shift+Enter”才是执行这个命令。

19398-数学建模-DNA序列分类模型

DNA序列分类模型 陈荣生张海军张旭东指导教师:数模组 海军航空工程学院 摘要本文讨论了在给定A类和B类各10个DNA序列的情况下,如何找出判断DNA 序列类型的方法,并具体分析了DNA序列的局部特征,最后将总体特征与局部特征综合考虑。 文中我们先根据给出的已知类型的20组DNA序列,考虑了四个碱基及其组合形式出现的频率,以此为研究对象进行深入研究,并建立了两个数学模型,即信息熵模型和Z曲线模型,最后还给出了模型的改进方向。 本文采取的用Z曲线来研究DNA序列的方法很有意义。 一、问题的重述 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,DNA全序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。人们发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A 和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列,其中序列标号1—10 为A类,11-20为B 类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类; B类。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 2),用你的分类方法对182个自然DNA序列进行分类,像1)一样地给出分类结果。二、问题的分析 为了找出分类方法,我们可以省略细节,突出特征,以某 种碱基出现的频率或以两种甚至三种碱基的组合出现的频率, 或者以几种碱基出现的频率之和为依据来考虑。现分别就A、 B两组DNA序列针对以下20个方面做一些简单分析: 1)A出现的频率; 2)C出现的频率; 3)G出现的频率; 4)T出现的频率;

数学建模——excel

§10.4 EXCEL在数学建模中的应用 10.4.1 简介 Microsoft Excel是目前应用最为广泛的办公室表格处理软件之一。它在数学统计中也有广泛应用。Excel具有强有力的数据库管理功能、丰富的宏命令和函数、强有力的决策支持工具,具有分析能力强、操作简便、图表能力强等特点。 10.4.2 Excel 中的统计工具简介 1.统计函数 Excel提供78个统计函数。在主菜单中的“插入”中选择“函数”,单击后就可以得到一组常用的统计函数,如均值AVERAGE、方差VAR、中位数 MEDIAN、秩RANK、最大值MAX、最小值MIN、计数COUNT,离散和连续分布的分布函数、概率函数、分位点等,如图10.所示。在选定函数的同时,在命令的下方会出现一条说明,表明命令的意义及每个参数的含义。 图10. 例如正态分布分布函数 NORMDIST,返回给定均值和标准差的正态分布分布函数或正态分布概率密度函数。 语法:NORMDIST(x, mean, standard_dev , cumulative) 说明: x 为需要计算其分布的数值,Mean 为分布的均值,Standard_dev 为分布的标准差,Cumulative 为一逻辑值,指明函数的形式。如果 cumulative 为 TRUE,函数 NORMDIST 返回分布函数;如果为 FALSE,返回概率密度函数。 (1)如果 mean 或 stand_dev 为非数值型,函数 NORMDIST 返回错误值 #VALUE!。(2)如果 standard_dev < 0,函数 NORMDIST 返回错误值 #NUM!。 (3)如果 mean= 0 且 standard_dev = 1,函数 NORMDIST 返回标准正态分布,即函数NORMSDIST。

DNA序列分类

DNA序列分类 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类;B类。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。 提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等。 Art-model-data 1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggc cggaagtgaagggggatatgaccgcttgg 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctg gaacaaccggacggtggcagcaaagga 3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaa ggagggcggcaatcggtacggaggcggcgga 4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggt atcataaaaaaaggttgcga 5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcg gagggctggcaggaggctcattacggggag 6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattag gagggcggaataaaggaacggcggcaca

历年全国数学建模试题及其解法归纳

历年全国数学建模试题及解法归纳 赛题解法 93A非线性交调的频率设计拟合、规划 93B足球队排名图论、层次分析、整数规划94A逢山开路图论、插值、动态规划 94B锁具装箱问题图论、组合数学 95A飞行管理问题非线性规划、线性规划 95B天车与冶炼炉的作业调度动态规划、排队论、图论96A最优捕鱼策略微分方程、优化 96B节水洗衣机非线性规划 97A零件的参数设计非线性规划 97B截断切割的最优排列随机模拟、图论 98A一类投资组合问题多目标优化、非线性规划98B灾情巡视的最佳路线图论、组合优化 99A自动化车床管理随机优化、计算机模拟 99B钻井布局0-1规划、图论 00A DNA序列分类模式识别、Fisher判别、人工 神经网络 00B钢管订购和运输组合优化、运输问题 01A血管三维重建曲线拟合、曲面重建

赛题解法 01B 公交车调度问题多目标规划 02A车灯线光源的优化非线性规划 02B彩票问题单目标决策 03A SARS的传播微分方程、差分方程 03B 露天矿生产的车辆安排整数规划、运输问题 04A奥运会临时超市网点设计统计分析、数据处理、优化04B电力市场的输电阻塞管理数据拟合、优化 05A长江水质的评价和预测预测评价、数据处理 05B DVD在线租赁随机规划、整数规划 06A出版社书号问题整数规划、数据处理、优化06B Hiv病毒问题线性规划、回归分析 07A 人口问题微分方程、数据处理、优化07B 公交车问题多目标规划、动态规划、图 论、0-1规划 08A 照相机问题非线性方程组、优化 08B 大学学费问题数据收集和处理、统计分 析、回归分析 2009年A题制动器试验台的控制方法分析工程控制 2009年B题眼科病床的合理安排排队论,优化,仿真,综 合评价 2009年C题卫星监控几何问题,搜集数据

DNA序列的分类与判别分析

DNA序列的分类与判别分析 摘要: 本文对DNA 序列分类问题进行了讨论.。从“不同序列中碱基含量不同”入手,建立了欧氏距离判别模型、马氏距离判别模型以及Fisher准则判定模型。接着,本文对三种分类算法进行了对比, 对算法的稳定性进行了讨论。 关键词:DNA分类;欧氏距离;马氏距离;Fisher判别; DNA sequence classification and discriminant analysis MA Fuyu School of Management and Economics, China University of Geosciences, P.R.China, 430074 Abstract: In this paper, the classification of DNA sequences are discussed. From the “content of different base sequence in a different” approach, the establishment of a discriminant model of Euclidean distance, Mahalanobis distance, as well as Fisher discriminant model to determine the model guidelines. Then, this paper three classification algorithms were compared, the stability of the algorithm are discussed. Keywords: DNA taxonomy; Euclidean distance; Mahalanobis distance; Fisher Discriminant 1、问题的重述 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于

国内中学数学建模及其教学的研究现状

国内中学数学建模及其教学的研究现状 一、国内中学数学建模的研究现状 随着时代的进步和科技的发展,人们越来越觉得数学素质是一个人的基本素质的重要方面之一,而掌握和运用数学模型方法是衡量一个人数学素质高低的一个重要标志。受西方国家的影响,20世纪80年代初,数学建模课程引入到我国的一些高校,短短几十年来发展非常迅速,影响很大。1989年,我国高校有4个队首次参加美国大学生数学建模竞赛。现在这项竞赛已经成为一个世界性的竞赛。在美国大学生数学建模竞赛的影响下,1992年11月底,中国工业与应用数学学会举行了我国首届大学生数学建模联赛。从那以后,数学应用、数学建模方法、数学建模教学的热潮也迅速波及到中学,使得我国有关中学数学杂志中,讨论数学应用数学建模方法、数学建模教学的文章明显多了起来。1996年9月北京市数学会组织了一部分中学生参加了“全国大学生数学建模大赛”,取得了意想不到的好成绩,赢得了评审人员、教师等有关人士的一致好评。这些竞赛与常规的数学竞赛很不一样,题目内容与生产和生活实际紧密相连,可以使用参考书和计算工具,都是要通过建立数学模型来解决实际应用问题。这也说明中学生能否进行数学建模并不在于是否具备高等数学知识,运用初等数学知识仍然可以进行数学建模,甚至有时能把问题解决得更好。 在我国,中学真正开展数学建模的时间并不长。最早进行中学数学建模的城市是上海市。1991年10月,由上海市科技局、上海工业与应用数学学会、上海金桥出口加工联合有限公司联合举办了“上海市首届…金桥杯?中学生数学知识应用竞赛”的初赛,并于1992年3月举行了决赛。以后每年进行一次,主要对象是高中学生。这项竞赛参加者最多时达到了四千多人,在培养中学生数学应用意识和数学建模能力方面起到了重要作用,也为我国其他地区举办中学生数学应用与建模竞赛起了一个带头作用。 北京市于1993年到1994年也成功举办了“北京市首届…方正杯?中学生数学知识应用竞赛”,有两千多人参加了竞赛。与此同时,举办者开始尝试让中学生写数学建模的小论文,学生所写的小论文让举办者和教师大为吃惊。到1997年北京市教委从中学数学教育改革,特别是从应试教育向素质教育转变的角度出发,批准恢复了一年一度面向高中学生的竞赛。北京市成立了由北京市数学会、北京市教委科教院、人民教育出版社、北京师范大学、首都师范大学联合组织的“高中数学应用知识竞赛”咨询委员会和组织委员会,由北京数学会作为具体承办单位,并于1997年12月举办了“第一届北京市高中数学知识应用竞赛”初赛,并于1998年3月进行了决赛,至今成为惯例,已成功举办了十一届。 2000年8月,第七届全国数学建模教学与应用会议在郑州召开。会议安排了有关中学数学应用和建模的报告。比如,北京理工大学的叶其孝教授和北京师范大学的刘来福教授分别作了题为“深入开展中学生数学知识应用活动”和“北京中学生数学知识应用竞赛”的报告。特别值得提出的是,在这次会议上,第一次有中学教师参加。 2001年7月29日至8月2日,第十届国际数学建模教学与应用会议在北京举行。会议的研讨包括“中学数学知识应用竞赛和中学数学教育改革”的报告和研讨会。部分中国与会者还就“大、中学数学建模教学活动和教育改革”,“美、中大学生数学建模竞赛赛题解析”进行了交流。我国的一些中学教师在会上作了有关中学数学建模的报告,引起了与会者的强烈反响。所有这些都为进一步推动我国的数学建模教学活动创造了良好的条件。 教育部2003年颁布的《普通高中数学课程标准(实验稿)》把数学建模纳入了内容标准中,明确指出“高中阶段至少应为学生安排一次数学建模活动”,这标志着数学建模正式进入我国高中数学,也是我国中学数学应用与建模发展的一个里程碑。 二、国内中学数学建模教学的特点

DNA序列分类

DNA序列分类

实验目的 学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。 知识扩展 DNA序列分类 DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。 FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映

不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。 欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。 公式 在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是 d = sqrt((x1-x2)^+(y1-y2)^) 三维的公式是 d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^) 推广到n维空间,欧式距离的公式是 d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..n xi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标 n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式. 欧氏距离判别准则如下: 若dAdB,则将Xi点判为B类 若dA=dB,则将Xi点判为不可判别点。 欧氏距离看作信号的相似程度。距离越近 1.问题的提出 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001以完精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗的全部信息的“天书”,这本大自然写成的“天书”,是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是21实际最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。 2.问题的分析 这是一个比较典型的分类问题,为了表述的严格和方便,我们用数学的方法来重述这个问题。在这里问题的关键就是要从已知的20个字母序列中提取用于分类的特征。知道了这些特征,我们就可以比较容易的,对那些未标明类型的序列进行分类,下面我们将首先对用于分类的标准问题进行必要的讨论。 3.分类的方法 为了在众多可能的分类中寻求合理的分类结果,为此,就要确定合理的聚类准则。定义目标函数为

相关主题