搜档网
当前位置:搜档网 › 动态规划的优化讲义

动态规划的优化讲义

动态规划的优化讲义
动态规划的优化讲义

动态规划的优化一、时间上的优化

花店橱窗布置问题(IOI99试题)。假设想以最美观的方式布置花店的橱窗,有F束花,每束花的品种都不一样,同时,至少有同样数量的花瓶,被按顺序摆成一行,花瓶的位置是固定的,并从左到右,从1到V顺序编号,V是花瓶的数目,编号为1的花瓶在最左边,编号为V的花瓶在最右边,花束可以移动,并且每束花用1到F的整数唯一标识,标识花束的整数决定了花束在花瓶中列的顺序,即如果I<J,则花束I必须放在花束J左边的花瓶中。例如,假设杜鹃花的标识数为1,秋海棠的标识数为2,康乃馨的标识数为3,所有的花束在放入花瓶时必须保持其标识数的顺序,即:杜鹃花必须放在秋海棠左边的花瓶中,秋海棠必须放在康乃馨左边的花瓶中。如果花瓶的数目大于花束的数目,则多余的花瓶必须空,即每个花瓶中只能放一束花。

每一个花瓶的形状和颜色也不相同,因此,当各个花瓶中放入不同的花束时,会产生不同的美学效果,并以美学值(一个整数)来表示,空置花瓶的美学值为0。在上述例子中,花瓶与花束的不同搭配所具有的美学值,可以用如下表格表示:

根据表格,杜鹃花放在花瓶2中,会显得非常好看,但若放在花瓶4中则显得很难看。

为取得最佳美学效果,必须在保持花束顺序的前提下,使花的摆放取得最大的美学值,如果具有最大美学值的摆放方式不止一种,则输出任何一种方案即可。题中数据满足下面条件:1≤F≤100,F≤V ≤100,-50≤A IJ≤50,其中A IJ是花束I摆放在花瓶J中的美学值。输入整数F,V和矩阵(A IJ),输出最大美学值和每束花摆放在各个花瓶中的花瓶编号。

【分析】问题实际就是给定F束花和V个花瓶,以及各束花放到不同花瓶中的美学值,需要你找出一种摆放的方案,使得在满足编号小的花放进编号小的花瓶中的条件下,美学值达到最大。

(1)将问题进行转化,找出问题的原型。首先,看一下上述题目的样例数据表格。

将摆放方案的要求用表格表现出来,则摆放方案需要满足:每行选且只选一个数(花瓶);摆放方案的相邻两行中,下面一行的花瓶编号要大于上面一行的花瓶编号两个条件。这时可将问题转化为:给定一个数字表格,要求编程计算从顶行至底行的一条路径,使得这条路径所经过的数字总和最大(要求每行选且仅选一个数字)。同时,路径中相邻两行的数字,必须保证下一行数字的列数大于上一行数字的列数。

看到经过转化后的问题,发现问题与例题4-5的数字三角形问题十分相似,数字三角形问题的题意是:

给定一个数字三角形,要求编程计算从顶至底的一条路径,使得路径所经过的数字总和最大(要求每行选且仅选一个数字)。同时,路径中相邻两行的数字,必须保证下一行数字的列数,与上一行数字的列数相等或者等于上一行数字的列数加1。

上例中已经知道:数字三角形中的经过数字之和最大的最佳路径,路径的每个中间点到最底层的路径必然也是最优的,可以用动态规划方法求解,对于“花店橱窗布置”问题经过转化后,也可采取同样的方法得出本题同样符合最优性原理。因此,可以对此题采用动态规划的方法。

(2)对问题原型动态规划方法的修改。“数字三角形”问题的动态规划方法为:已知它是用行数来划分阶段。假设用a[i,j]表示三角形第i行的第j个数字,用p[i,j]表示从最底层到a[i,j]这个数字的最佳路径(路径经过的数字总和最大)的数字和,易得问题的动态转移方程为:p[n+1,j]=0 (1≤j≤n+1) p[i,j]=max{p[i+1,j],p[i+1,j+1]}+a[i,j] (1≤j≤i≤n,其中n为总行数)

分析两题的不同之处,就在于对路径的要求上。如果用path[i]表示路径中第i行的数字编号,那么两题对路径的要求就是:“数字三角形”要求path[i]≤path[i+1]≤path[i]+1,而本题则要求path[i+1]>path[i]。在明确两题的不同之后,就可以对动态规划方程进行修改了。假设用

b[i,j]表示美学值表格中第i行的第j个数字,用q[i,j]表示从表格最底层到b[i,j]这个数字的最佳路径(路径经过的数字总和最大)的数字和,修改后的动态规划转移方程为:

q[i,V+1]= -∞(1≤i≤F+1)

q[F,j]=b[F,j] (1≤j≤V)

q[i,j]=max{q[i+1,k] (j<k≤V+1)}+b[i,j] (1≤i≤F,1≤j≤V)

这样,得出的max{q[1,j]}(1≤j≤V)就是最大的美学值,算法的时间复杂度为O(FV2)。

(3)对算法时间效率的改进。先来看一下这样两个状态的求解方法:q[i,j]=max{q[i+1,k](j<k≤V+1)}+b[i,j] (1≤i≤F,1≤j≤V) q[i,j+1]=max{q[i+1,k] (j+1<k≤V+1)}+b[i,j+1] (1≤i≤F,1≤j+1≤V)

上面两状态中求max{q[i+1,k]}的过程进行了大量重复的比较。此时对状态的表示稍作修改,用数组t[i,j]=max{q[i,k](j≤k≤V+1)} (1≤i ≤F,1≤j≤V)表示新的状态。经过修改后,因为q[i,j]=t[i+1,j+1]+a[i,j],而t[i,j]=max{t[i,j+1],q[i,j]} (1≤i≤F,1≤j≤V),所以得出新的状态转移方程:t[i,V+1]=-∞(1≤i≤F+1)

t[F,j]=max{t[F,j+1],b[F,j]} (1≤j≤V)

t[i,j]=max{t[i,j+1],t[i+1,j+1]+a[i,j]} (1≤i≤F,1≤j≤V)

这样,得出的最大美学值为t[1,1],新算法的时间复杂度为O(F×V),而空间复杂度也为O(F×V),完全可以满足1≤F≤V≤100的要求.

分析二:,我们不妨设F[I,J]表示在前J个花瓶中插前I朵花的最高美学值,那么我们的方程可以变为:

F[I,j]=max{f[I-1,j-1]+f[I,j], {第I朵花插在第j花瓶里}

F[I,j-1]} {第I朵花插在前j花瓶里} 这么以来,时间复杂度就降为了O(N*N),这么一来,对于所有数据都可以在瞬间出解了。

股票问题。假设你有非凡的能力,能预测出今后D天中每天的股价(设每天股价不变,第i天的为vi)。第一天前,你有1元。以后每一天你可以用现有的资金购买股票,或将现有的股票抛出换资金,当然也可什么都不干。求D天后你能获得的最大收入。

输入文件的第一行为D(1<=D<=100000)。下面有D个实数,依次为今后D天的股票价格。输出仅为一个精确到0.0001的实数,即D天后的理想收入。

输入与输出样例:

【分析】动态规划算法的核心就是它的状态转移方程。一个好的方程,可以尽量避免冗余的产生,同时因为状态转移方程也会牵涉到保存决策的状态数组,所以一些时候它同样可以节省空间。

设f(i)为第I天收盘时能达到的最高收入,则有状态转移方程一:

f(i)=max{f(j)*vt/vk} (0<=j

f(0)=1

其含义为:第I天收盘时能达到的最高收入来源于第j天收盘后的收入,全部用于购入第k天的股票,再在第t天将所得的股票全部抛出后所得的收入。这样,F(D)就是问题的答案。按照这一状态方程,我们可以得到以下的算法描述:

Proc s1(D,v[1..D]);

F[0]:=1;

For I=1 to D

[f[I]:=0

for j=0 to I

for k=j+1 to I

for t:=k+1 to I

if f[j]*v[t]/v[k]>f[I] then f[I]=f[j]*v[t]/v[k]

]

显然,本算法的时间复杂度为O(D4),空间复杂度为O(D),时间效率十分低下。如果仔细分析,我们会发现,如果第I天的收入是由第t天的抛出所得的,这就意味着从第t天后直到第I天一直在休息,即f(I)=f(t)成立。如果我们让f(I-1)的值能传给f(i),那么f(t)的值就能传给f(i)。于是可以得到下面的状态转移方程二:

f(i)=max{f(I-1),f(j)*vi/vk} (0<=j

f(0)=1

这一状态转移方程的含义为:如果第I天休息,则前I天所能获得的最大收入f(i)就是前I-1天所能获得的最大收入f(I-1),否则第I 天不休息,那么为了尽量增加收入,必然将股票全部抛出,就是将前j天所得的收入在第k天全部用来购入,再在第I天抛出。对应的算法描述如下:

Proc s2(D,v[1..D]);

F[0]:=1

For I=1 to D

[f[I]:=f[I-1]

for j=0 to I-1

for k=j+1 to I

if f[j]*v[i]/v[k]>f[I] then f[I]=f[j]*v[i]/v[k]

]

通过进一步分析,我们可以发现,如果将前j天所得的收入在第k天全部用来购入,这就意味着从前第j天后直到第k天前一直在休息,f(j)=f(k-1)成立。于是状态转移方程改写成如下形式的状态方程三:

f(i)=max{f(I-1),f(j)*vi/v(j+1)} (0<=j

f(0)=1

其对应的算法描述变为:

Proc s3(D,v[1..D]);

F[0]:=1

For I=1 to D

[f[I]:=f[I-1]

for j=0 to I-1

if f[j]*v[i]/v[j+1]>f[I] then f[I]=f[j]*v[i]/v[j+1]

]

endp

上述算法的时间复杂度已降为O(D2),空间复杂度为O(D)。算法效率已明显得到了提高了。再进一步观察状态方程三,由于f(i)来源于f(I-1)和f(j)*vi/v(j+1),后者可写成vi*f(j)/v(j+1),其中vi是固定的,f(j)/v(j+1)是待寻找的,而算法s3的最后一个循环实际上是在找最大的f(j)/v(j+1),于是,方程三可化为:

f(I)=max{f(i-1),vi*max{f(j)/v(j+1)}}(0<=j

=max{f(I-1),vi*g(i)}

其中g(i)=max{f(j-1)/vj}(0

于是,状态转移方程变成了两个函数f、g的相互赋值。要进一步优化方程,必须从优化g(i)

入手。让g(I-1)的值传给g(i),我们有:

g(i)=max{g(I-1),f(I-1)/vi}

状态转移方程写成了以下的第四种形式:

f(i)=max{f(I-1),vi*g(i)}

g(i)=max{g(I-1),f(I-1)/vi}

现在,f(i)与g(i)都成为了只和f(I-1)与g(I-1)有关的递推函数,实现算法时,f(I-2),f(I-3),……,f(0)与g(I-2),g(I-3),……,g(0)不必保留。这里的f(i),g(i)的含义分别是:F(i)是第I天后的最大收入,g(i)是第I天前持有的最多股票数目。这两者中选其一兑换成现金便是当前最大收入。根据状态方程四,我们可以得到如下算法:

Proc s4(D,v[1..D]);

F:=1

G:=0

For I=1 to D

[if f/v[I]>g then g=f/v[I]

if g*v[I]>f then f=g*v[I]

]

endp

至此,动态转移方程才算优化完毕了,它的时间复杂度变为了O(D),空间复杂度为O(1)。对于同一个可用动态规划求解的问题,往往可以列出多个状态转移方程,虽然从理论上来讲,它们都能够产生正确解,但为此付出的时空代价却各不相同,方程的优劣,关键就在于它是否充分利用了已知信息,也就是说尽量不去求解那些不必要的子问题。

动态规划专题(六):树型动态规划

动态规划专题(六):树型动态规划 (重庆巴蜀中学黄新军) 信息学竞赛中通常会出现这样的问题:给一棵树,要求以最少的代价(或取得最大收益)完成给定的操作。有很多问题都是在树和最优性的基础上进行了扩充和加强,从而变成了棘手的问题。这类问题通常规模较大,枚举算法的效率无法胜任,贪心算法不能得到最优解,因此要用动态规划解决。 和一般动态规划问题一样,这类问题的解决要考虑如下三步: 1、确立状态:几乎所以的问题都要保存以某结点为根的子树的情况,但是要根据具体问题考虑是否要加维,加几维,如何加维。 2、状态转移:状态转移的变化比较多,要根据具体问题具体分析,这也是本文例题分析的重点。 3、算法实现: 由于模型建立在树上,即为树型动态规划。 【例题1】二叉苹果树 【问题描述】 有一棵苹果树,如果树枝有分叉,一定是分2叉(就是说没有只有1个儿子的结点),这棵树共有N个结点(叶子点或者树枝分叉点),编号为1-N,树根编号一定是1。 我们用一根树枝两端连接的结点的编号来描述一根树枝的位置。下面是一颗有4个树枝的树: 现在这颗树枝条太多了,需要剪枝。但是一些树枝上长有苹果。给定需要保留的树枝数量,求出最多能留住多少苹果。 【文件输入】 第1行2个数,N和Q(1<=Q<=N,1

动态规划之-0-1背包问题及改进

动态规划之-0-1背包问题及改进

有N件物品和一个容量为V的背包。第i件物品的重量是w[i],价值是v[i]。求解将哪些物品装入背包可使这些物品的重量总和不超过背包容量,且价值总和最大。在选择装入背包的物品时,对于每种物品i,只能选择装包或不装包,不能装入多次,也不能部分装入,因此成为0-1背包问题。 形式化描述为:给定n个物品,背包容量C >0,重量第i件物品的重量w[i]>0, 价值v[i] >0 , 1≤i≤n.要求找一n元向量(X1,X2,…,X n,), X i∈{0,1}, 使得∑(w[i] * Xi)≤C,且∑ v[i] * Xi达最大.即一个特殊的整数规划问题。 数学描述为: 求解最优值:

设最优值m(i,j)为背包容量为j、可选择物品为i,i+1,……,n时的最优值(装入包的最大价值)。所以原问题的解为m(1,C) 将原问题分解为其子结构来求解。要求原问题的解m(1,C),可从m(n,C),m(n-1,C),m(n-2,C).....来依次求解,即可装包物品分别为(物品n)、(物品n-1,n)、(物品n-2,n-1,n)、……、(物品1,物品2,……物品n-1,物品n)。最后求出的值即为最优值m(1,C)。 若求m(i,j),此时已经求出m(i+1,j),即第i+1个物品放入和不放入时这二者的最大值。 对于此时背包剩余容量j=0,1,2,3……C,分两种情况: (1)当w[i] > j,即第i个物品重量大于背包容量j时,m(i,j)=m(i+1,j) (2)当w[i] <= j,即第i个物品重量不大于背包容量j时,这时要判断物品i放入和不放入对m的影响。 若不放入物品i,则此时m(i,j)=m(i+1,j) 若放入物品i,此时背包

动态规划问题整理

动态规划: 【1】.矩阵乘法链,最小乘法次数。 一、问题描述 给定一个矩阵序列,计算乘积A1A2…An。要求找出一个加全部括号的方式,使得标量乘法的次数最小。 对于任意两个矩阵AiAi+1相乘,其乘法次数为pi-1pi pi+1,不同的加全部括号,所需要的乘法次数可能相差很大。 假设现在有三个矩阵A1A2A3相乘,维数分别为:10×100,100×5,5×50。 1、如果我们采用如下方式加全部括号: ((A1A2)A3) 则 首先计算(A1A2),乘法次数为p0p1 p2,得到新矩阵的维数为p0×p2 计算((A1A2)A3),乘法次数为p0p2 p3, 总的计算次数为p0p1 p2+ p0p2 p3=10×100×5+10×5×50=7500 2、如果我们采用如下方式加全部括号: (A1(A2 A3)) 则 首先计算(A2 A3),乘法次数为p1 p2 p3,得到新矩阵的维数为p1×p3 计算(A1(A2 A3)),乘法次数为p0p1 p3, 总的计算次数为p1 p2 p3+ p0p1 p3=100×5×50+10×100×50=75000 第二种方式需要的次数是第二次的10倍! 二、问题分析: 由前面可知,一个序列如果只有一个矩阵,则只有一种方式加全部括号,如果有两个或两个以上的矩阵,则必然可以看做两个子序列的乘积,且这两个子序列也是加全部括号。我们用cost(i,j)表示序列Ai…Aj在最优加全部括号时的标量乘积次数,则 其中p(i-1)p(k) p(j)为子序列Ai…Ak与Ak+1…Aj相乘时的标量相乘次数。 顺序连城可以把最后一个单个的看成单独加括号。 三、问题求解 每一对满足1≤i≤j≤n的i和j都对应原问题的一个子问题,子问题个数为动态规划(二):矩阵链乘法,其中第一项表示i=i的部分,且value[i][i]=0。

算法合集之《动态规划算法的优化技巧》

动态规划算法的优化技巧 福州第三中学毛子青 [关键词] 动态规划、时间复杂度、优化、状态 [摘要] 动态规划是信息学竞赛中一种常用的程序设计方法,本文着重讨论了运用动态规划思想解题时时间效率的优化。全文分为四个部分,首先讨论了动态规划时间效率优化的可行性和必要性,接着给出了动态规划时间复杂度的决定因素,然后分别阐述了对各个决定因素的优化方法,最后总结全文 [正文] 一、引言 动态规划是一种重要的程序设计方法,在信息学竞赛中具有广泛的应用。 使用动态规划方法解题,对于不少问题具有空间耗费大、时间效率高的特点,因此人们在研究动态规划解题时更多的注意空间复杂度的优化,运用各种技巧将空间需求控制在软硬件可以承受的范围之内。但是,也有一部分问题在使用动态规划思想解题时,时间效率并不能满足要求,而且算法仍然存在优化的余地,这时,就需要考虑时间效率的优化。 本文讨论的是在确定使用动态规划思想解题的情况下,对原有的动态规划解法的优化,以求降低算法的时间复杂度,使其能够适用于更大的规模。 二、动态规划时间复杂度的分析 使用动态规划方法解题,对于不少问题之所以具有较高的时间效率,关键在于它减少了“冗余”。所谓“冗余”,就是指不必要的计算或重复计算部分,算法的冗余程度是决定算法效率的关键。动态规划在将问题规模不断缩小的同时,记录已经求解过的子问题的解,充分利用求解结果,避免了反复求解同一子问题的现象,从而减少了冗余。 但是,动态规划求解问题时,仍然存在冗余。它主要包括:求解无用的子问题,对结果无意义的引用等等。 下面给出动态规划时间复杂度的决定因素: 时间复杂度=状态总数*每个状态转移的状态数*每次状态转移的时间[1] 下文就将分别讨论对这三个因素的优化。这里需要指出的是:这三者之间不是相互独立的,而是相互联系,矛盾而统一的。有时,实现了某个因素的优化,另外两个因素也随之得到了优化;有时,实现某个因素的优化却要以增大另一因素为代价。因此,这就要求我们在优化时,坚持“全局观”,实现三者的平衡。 三、动态规划时间效率的优化 3.1 减少状态总数 我们知道,动态规划的求解过程实际上就是计算所有状态值的过程,因此状态的规模直接影响到算法的时间效率。所以,减少状态总数是动态规划优化的重要部分,本节将讨论减少状态总数的一些方法。

资源分配问题

用动态规划法求解资源分配问题 1.某市电信局有四套通讯设备,准备分给甲、乙、丙三个地区支局,事先调查 了各地区支局的经营情况,并对各种分配方案作了经济效益的估计,如表所示,其中设备数为0时的收益,指已有的经营收益,问如何分配这四套设备,使总的收益最大? 解:分三个阶段1,2,3k =分别对应给甲、乙、丙三个地区支局分配设备, 0,1,2,3,4k s =表示在第k 阶段分配的设备套数, ()k k x s 表示第k 阶段分配k s 套设备所产生的收益 ()k k f s 表示将k s 套设备分配给第k 阶段直到第3阶段所产生的收益 用逆推法得到基本递推方程 1144()max{()()},1,2,3 ()0 k k k k k k f s x s f s k f s ++=+=?? =? 当3k =时 33333(0)48,(1)64,(2)68,(3)78,(4)78f f f f f ===== 当2k =时 223(0)max{(0)(00)}max{4840}88f x f =+-=+= 23223(0)(1)6440(1)max max 104(1)(0)4248x f f x f ++???? ===????++???? 2322323(0)(2)6840(2)max (1)(1)max 64421085048(2)(0)x f f x f x f ++???????? =+=+=???????? ++????

2323 22323(0)(3)4078(1)(2)6842(3)max max 118(2)(1)64506048(3)(0)x f x f f x f x f ++????????++????===????++????????++???? 23232232323(0)(4)4078(1)(3)4278(4)max (2)(2)max 68501246064(3)(1)6648(4)(0)x f x f f x f x f x f ++????????++???????? =+=+=????????++????+????+???? 当1k =时 112(0)max{(0)(0)}max{3888}126f x f =+=+= 12112(1)(0)4188(1)max max 140(0)(1)38102x f f x f ++????===????++???? 1211212(2)(0)4888(2)max (1)(1)max 4110414638108(0)(2)x f f x f x f ++???? ???? =+=+=???????? ++???? 1212 11212(3)(0)6088(2)(1)48104(3)max max 156(1)(2)4110838118(0)(3)x f x f f x f x f ++???? ????++????===????++????????++???? 12121121212(4)(0)6688(3)(1)60104(4)max (2)(2)max 4810816441118(1)(3)38124(0)(4)x f x f f x f x f x f ++????????++???????? =+=+=????????++????+?+??????? 故最大收益为164,具体分配方案为甲3套,乙0套,丙1套。

3 (修改)大规模状态空间中的动态规划和强化学习问题

3 大规模状态空间中的动态规划和强化学习问题 本章我们将讨论大规模状态空间中的动态规划和强化学习问题。对于这类问题,我们一般很难求得问题的精确解,只能得到问题的近似解。前面章节所介绍的一些算法,如值迭代、策略迭代和策略搜索,无法直接用于这类问题。因此,本章将函数近似引入这些算法,提出三类基于函数近似的算法版本,分别是近似值迭代、近似策略迭代和近似策略搜索。本章将从理论和实例两个角度分析算法的收敛性,讨论如何获取值函数逼近器的方法,最后比较分析三类算法的性能。 3.1 介绍 第二章详细介绍了DP/RL中三类经典算法,这三类算法都需要有精确的值函数及策略表示。一般来说,只有存储每一个状态动作对回报值的估计值才能得到精确地Q值函数,同样V值函数只有存储每一个状态的回报值的估计值才能得到;精确的策略描述也需要存储每一个状态对应的动作。如果值函数中某些变量,比如某些状态动作对、状态等,存在很多个或者无穷多个潜在值(又或者这些值是连续的),那么我们就无法精确描述对应的Q值函数或者V值函数,因此,考虑将值函数和策略通过函数近似的方式来表示。由于实际应用中大部分问题都存在大规模或者连续状态空间,因此,函数近似方法是求解动态规划和强化学习问题的基础。 逼近器主要可以分为两大类:带参的和非参的。带参的逼近器主要是从参数空间到目标函数空间的映射。映射函数及参数的个数由先验知识给定,参数的值由样本数据进行调整。典型的例子是对一组给定的基函数进行加权线性组合,其中权重就是参数。相比之下,非参的逼近器通过样本数据直接得到。本质上,非参的函数逼近器也是含带参数的,只是不像带参的函数逼近器,参数的个数及参数的值直接有样本数据决定。例如,本书中所讨论的基于核函数的逼近器就是带参数的函数逼近器,它为每一个数据点定义一个核函数,并对这些核函数做加权线性组合,其中权重就是参数。 本章主要对大规模状态空间中动态规划和强化学习问题进行广泛而深入的讨论。第二章中所介绍的三类主要算法,值迭代、策略迭代和策略搜索,将与函数近似方法相结合,获得三类新的算法,分别是近似值迭代、近似策略迭代以及近似策略搜索。本章将从理论和实例两个角度讨论算法的收敛性,并对比分析三类算法的性能。关于值函数近似与策略逼近的一些其他重要问题,本章也将给予讨论。为了帮助读者更好的阅读本章的内容,图3.1给出一个本章的内容脉络图。

动态规划习题精讲

信息学竞赛中的动态规划专题 哈尔滨工业大学周谷越 【关键字】 动态规划动机状态典型题目辅助方法优化方法 【摘要】 本文针对信息学竞赛(面向中学生的Noi以及面向大学生的ACM/ICPC)中的动态规划算法,从动机入手,讨论了动态规划的基本思想和常见应用方法。通过一些常见的经典题目来归纳动态规划的一般作法并从理论上加以分析和说明。并介绍了一些解决动态规划问题时的一些辅助技巧和优化方法。纵观全文可知,动态规划的关键在于把握本质思想的基础上灵活运用。 【目录】 1.动态规划的动机和基本思想 1.1.解决重复子问题 1.2.解决复杂贪心问题 2.动态规划状态的划分方法 2.1.一维状态划分 2.2.二维状态划分 2.3.树型状态划分 3.动态规划的辅助与优化方法 3.1.常见辅助方法 3.2.常见优化方法 4.近年来Noi动态规划题目分析 4.1 Noi2005瑰丽华尔兹 4.2 Noi2005聪聪与可可 4.3 Noi2006网络收费 4.4 Noi2006千年虫 附录参考书籍与相关材料

1.动态规划的动机和基本思想 首先声明,这里所说的动态规划的动机是从竞赛角度出发的动机。 1.1 解决重复子问题 对于很多问题,我们利用分治的思想,可以把大问题分解成若干小问题,然后再把各个小问题的答案组合起来,得到大问题的解答。这类问题的共同点是小问题和大问题的本质相同。很多分治法可以解决的问题(如quick_sort,hanoi_tower等)都是把大问题化成2个以内的不相重复的小问题,解决的问题数量即为∑(log2n / k)。而考虑下面这个问题: USACO 1.4.3 Number Triangles http://122.139.62.222/problem.php?id=1417 【题目描述】 考虑在下面被显示的数字金字塔。 写一个程序来计算从最高点开始在底部任意处结束的路径经过数字的和的最大。每一步可以走到左下方的点也可以到达右下方的点。 7 3 8 8 1 0 2 7 4 4 4 5 2 6 1 在上面的样例中,从7到3到8到7到5的路径产生了最大和:30。 【输入格式】 第一个行包含R(1<= R<=1000) ,表示行的数目。后面每行为这个数字金字塔特定行包含的整数。所有的被供应的整数是非负的且不大于100。 【输出格式】 单独的一行包含那个可能得到的最大的和。 【样例输入】 5 7 3 8 8 1 0 2 7 4 4 4 5 2 6 1 【样例输出】 30 显然,我们同样可以把大问题化成小问题来解决。如样例中最底层的6就可以从次底层

动态规划

动态规划的特点及其应用 摘要:本文的主要内容就是分析它的特点。第一部分首先探究了动态规划的本质,因为动态规划的特点是由它的本质所决定的。第二部分从动态规划的设计和实现这两个角度分析了动态规划的多样性、模式性、技巧性这三个特点。第三部分将动态规划和递推、搜索、网络流这三个相关算法作了比较,从中探寻动态规划的一些更深层次的特点。文章在分析动态规划的特点的同时,还根据这些特点分析了我们在解题中应该怎样利用这些特点,怎样运用动态规划。这对我们的解题实践有一定的指导意义。本文介绍了动态规划的基本思想和基本步骤,通过实例研究了利用动态规划设计算法的具体途径,讨论了动态规划的一些实现技巧,并将动态规划和其他一些算法作了比较,最后还简单介绍了动态规划的数学理论基础和当前最新的研究成果。 关键词: 动态规划,阶段 1 引言 动态规划是运筹学的一个分支,是求解决策过程最优化的数学方法。20世纪50年代初美国数学家R.E.Bellman 等人在研究多阶段决策过程(multistep decision process)的优化问题时,提出了著名的最优化原理(principle of optimality),把多阶段过程转化为一系列单阶段问题,逐个求解,创立了解决这类过程优化问题的新方法——动态规划。1957年出版了他的名著Dynamic Programming,这是该领域的第一本著作。 动态规划问世以来,在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题,用动态规划方法比用其它方法求解更为方便。 虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题,但是一些与时间无关的静态规划(如线性规划、非线性规划),只要人为地引进时间因素,把它视为多阶段决策过程,也可以用动态规划方法方便地求解。 2 动态规划的基本思想 一般来说,只要问题可以划分成规模更小的子问题,并且原问题的最优解中包含了子问题的最优解(即满足最优子化原理),则可以考虑用动态规划解决。动态规划的实质是分治思想和解决冗余,因此,动态规划是一种将问题实例分解

运筹学之动态规划(东南大学)汇总

引言——由一个问题引出的算法 考虑以下问题 [例1] 最短路径问题 现有一张地图,各结点代表城市,两结点间连线代表道路,线上数字表示城市间的距离。如图1所示,试找出从结点A到结点E的最短距离。 图 1 我们可以用深度优先搜索法来解决此问题,该问题的递归式为 其中是与v相邻的节点的集合,w(v,u表示从v到u的边的长度。 具体算法如下: 开始时标记所有的顶点未访问过,MinDistance(A就是从A到E的最短距离。 这个程序的效率如何呢?我们可以看到,每次除了已经访问过的城市外,其他城市都要访问,所以时间复杂度为O(n!,这是一个“指数级”的算法,那么,还有没有更好的算法呢? 首先,我们来观察一下这个算法。在求从B1到E的最短距离的时候,先求出从C2到E的最短距离;而在求从B2到E的最短距离的时候,又求了一遍从C2到E的最短距离。也就是说,从C2到E的最短距离我们求了两遍。同样可以发现,在求从C1、C2到E的最短距离的过程中,从D1到E的最短距离也被求了两遍。而在整个程序中,从D1到E的最短距离被求了四遍。如果在求解的过程中,同时将求得的最短距离"记录在案",随时调用,就可以避免这种情况。于是,可以改进该算法,将每次求出的从v到E的最短距离记录下来,在算法中递归地求MinDistance(v时先检查以前是否已经求过了MinDistance(v,如果求过了则不用重新求一遍,只要查找以前的记录就可以了。这样,由于所有的点有n个,因此不同的状态数目有n 个,该算法的数量级为O(n。 更进一步,可以将这种递归改为递推,这样可以减少递归调用的开销。 请看图1,可以发现,A只和Bi相邻,Bi只和Ci相邻,...,依此类推。这样,我们可以将原问题的解决过程划分为4个阶段,设

动态规划习题完整版

动态规划习题 Document serial number【NL89WT-NY98YT-NC8CB-NNUUT-NUT108】

动态规划专题分类视图数轴动规题: 题1.2001年普及组第4题--装箱问题 【问题描述】有一个箱子容量为V(正整数,0≤V≤20000),同时有n个物品(0

对于100%的数据,砝码的种类n满足:1≤n≤100; 对于30%的数据,砝码的总数量C满足:1≤C≤20; 对于100%的数据,砝码的总数量C满足:1≤C≤100; 对于所有的数据,砝码的总重量W满足:1≤W≤400000; 题3.石子归并-szgb.pas 【问题描述】有一堆石头质量分别为W1,W2,…,Wn.(Wi≤10000),将石头合并为两堆,使两堆质量的差最小。 【输入】输入文件szgb.in的第一行只有一个整数n(1≤n≤50),表示有n堆石子。接下去的n行,为每堆石子质量。 【输出】输出文件szgb.out的只有一行,该行只有一个整数,表示最小的质量差. 【样例输入】 5 5 8 13 27 14 【样例输出】 3 题4.补圣衣 【问题描述】有四个人,每人身上的衣服分别有s1,s2,s3和s4处破损,而且每处破损程度不同,破损程度用需修好它用的时间表示 (A1...As1,B1...Bs2,C1...Cs3,D1...Ds4)。不过你可以同时修补2处破损。但是这2处破损,只能是同一件衣服上的。就是说你只能同时修补一件衣服,修好了,才能修补下一件。 【输入】本题包含5行数据:第1行,为s1,s2,s3,s4(1≤s1,s2,s3,s4≤20) 第2行,为A1...As1共s1个数,表示第一件衣服上每个破损修好它所需的时间 第3行,为B1...Bs2共s2个数,表示第二件衣服上每个破损修好它所需的时间 第4行,为C1...Cs3共s3个数,表示第三件衣服上每个破损修好它所需的时间 第5行,为D1...Ds4共s4个数,表示第四件衣服上每个破损修好它所需的时间 (1≤A1...As1,B1...Bs2,C1...Cs3,D1...Ds4≤60) 【输出】输出一行,为修好四件衣服所要的最短时间。 【样例输入】 1213 5 43 6 243 【样例输出】 20 题5.光光的作业homework.pas/homework.exe 【问题描述】光光上了高中,科目增多了。在长假里,光光的老师们都非常严厉,都给他布置了一定量的作业。假期里,光光一共有的时间是k小时。在长假前,老师们一共给光光布置了n份作业,第i份作业需要的时间是ti小时。但是由于老师们互相不

(整理)matlab 动态规划讲义.

第四章动态规划 §1 引言 1.1 动态规划的发展及研究内容 动态规划(dynamic programming)是运筹学的一个分支,是求解多阶段决策问题的最优化方法。20世纪50年代初R. E. Bellman等人在研究多阶段决策过程(multistep decision process)的优化问题时,提出了著名的最优性原理(principle of optimality),把多阶段过程转化为一系列单阶段问题,逐个求解,创立了解决这类过程优化问题的新方法—动态规划。1957年出版了他的名著《Dynamic Programming》,这是该领域的第一本著作。 动态规划问世以来,在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题,用动态规划方法比用其它方法求解更为方便。 虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题,但是一些与时间无关的静态规划(如线性规划、非线性规划),只要人为地引进时间因素,把它视为多阶段决策过程,也可以用动态规划方法方便地求解。 应指出,动态规划是求解某类问题的一种方法,是考察问题的一种途径,而不是一种特殊算法(如线性规划是一种算法)。因而,它不象线性规划那样有一个标准的数学表达式和明确定义的

一组规则,而必须对具体问题进行具体分析处理。因此,在学习时,除了要对基本概念和方法正确理解外,应以丰富的想象力去建立模型,用创造性的技巧去求解。 例1 最短路线问题 下面是一个线路网,连线上的数字表示两点之间的距离(或费用)。试寻求一条由A到G距离最短(或费用最省)的路线。 例2 生产计划问题 工厂生产某种产品,每单位(千件)的成本为1(千元),每次开工的固定成本为3(千元),工厂每季度的最大生产能力为6(千件)。经调查,市场对该产品的需求量第一、二、三、四季度分别为2,3,2,4(千件)。如果工厂在第一、二季度将全年的需求都生产出来,自然可以降低成本(少付固定成本费),但是对于第三、四季度才能上市的产品需付存储费,每季每千件的存储费为0.5(千元)。还规定年初和年末这种产品均无库存。试制定一个生产计划,即安排每个季度的产量,使一年的总费用(生产成本和存储费)最少。 1.2 决策过程的分类

动态规划 求解资源分配 实验报告

动态规划求解资源分配 实验目标: (1)掌握用动态规划方法求解实际问题的基本思路。 (2)进一步理解动态规划方法的实质,巩固设计动态规划算法的基本步骤。 实验任务: (1)设计动态规划算法求解资源分配问题,给出算法的非形式描述。 (2)在Windows环境下用C语言实现该算法。计算10个实例,每个实例中n=30,m=10,C i j为随机产生于范围(0,103)内的整数。记录各实例的数据及执行结果(即最优分配方案、最优分配方案的值)、运行时间。 (3)从理论上分析算法的时间和空间复杂度,并由此解释相应的实验结果。 实验设备及环境: PC;C/C++等编程语言。 实验主要步骤: (1)认真阅读实验目的与实验任务,明确本次实验的内容; (2)分析实验中要求求解的问题,根据动态规划的思想,得出优化方程; (3)从问题出发,设计出相应的动态规划算法,并根据设计编写程序实现算法; (4)设计实验数据并运行程序、记录运行的结果; (5)分析算法的时间和空间复杂度,并由此解释释相应的实验结果; 问题描述:资源分配问题 某厂根据计划安排,拟将n台相同的设备分配给m个车间,各车间获得这种设备后,可以为国家提供盈利C i j(i台设备提供给j号车间将得到的利润,1≤i≤n,1≤j≤m) 。问如何分配,才使国家得到最大的盈利? 1.问题分析: 本问题是一简单资源分配问题,由于具有明显的最优子结构,故可以使用动态规划求解,用状态量f[i][j]表示用i台设备分配给前j个车间的最大获利,那么显然有f[i][j] = max{ f[k][j–1] + c[i-k][j] },0<=k<=i。再用p[i][j]表示获得最优解时第j号车间使用的设备数为i-p[i][j],于是从结果倒推往回求即可得到分配方案。程序实现时使用顺推,先枚举车间数,再枚举设备数,再枚举状态转移时用到的设备数,简单3重for循环语句即可完成。时间复杂度为O(n^2*m),空间复杂度为O(n*m),倘若此题只需求最大获利而不必求方案,则状态量可以减少一维,空间复杂度优化为O(n)。

动态规划的发展及研究内容

动态规划的发展及研究内容 动态规划(dynamic programming)是运筹学的一个分支,是求解决策过程(decision process)最优化的数学方法。20世纪50年代初美国数学家R.E.Bellman等人在研究多阶段决策过程(multistep decision process)的优化问题时,提出了著名的最优化原理(principle of optimality),把多阶段过程转化为一系列单阶段问题,逐个求解,创立了解决这类过程优化问题的新方法——动态规划。1957年出版了他的名著Dynamic Programming,这是该领域的第一本著作。 动态规划问世以来,在经济管理、生产调度、工程技术和最优控制等方面得到了广泛的应用。例如最短路线、库存管理、资源分配、设备更新、排序、装载等问题,用动态规划方法比用其它方法求解更为方便。 虽然动态规划主要用于求解以时间划分阶段的动态过程的优化问题,但是一些与时间无关的静态规划(如线性规划、非线性规划),只要人为地引进时间因素,把它视为多阶段决策过程,也可以用动态规划方法方便地求解。 多阶段决策问题 多阶段决策过程,是指这样的一类特殊的活动过程,问题可以按时间顺序分解成若干相互联系的阶段,在每一个阶段都要做出决策,全部过程的决策是一个决策序列。要使整个活动的总体效果达到最优的问题,称为多阶段决策问题。 引言——由一个问题引出的算法 [例1] 最短路径问题 现有一张地图,各结点代表城市,两结点间连线代表道路,线上数字表示城市间的距离。如图1所示,试找出从结点A到结点E的最短距离。 图1 我们可以用深度优先搜索法来解决此问题,该问题的递归式为 其中是与v相邻的节点的集合,w(v,u)表示从v到u的边的长度。 具体算法如下: function MinDistance(v):integer; begin if v=E then return 0 else begin min:=maxint; for 所有没有访问过的节点i do if v和i相邻then begin 标记i访问过了; t:=v到i的距离+MinDistance(i); 标记i未访问过; if t

动态规划之最短路径源代码

动态规划之最短路径问题源代码 #include "stdio.h" #include "conio.h" #define n 16 /*图的顶点数*/ #define k 7 /*图的段数*/ #define l 30 #define MAX 100 typedef int NodeNumber;/*节点编号*/ typedef int CostType;/*成本值类型*/ CostType cost[n][n]; NodeNumber path[k]; NodeNumber cur=-1; void creategraph(CostType *cost[n][n]) /*创建图的成本矩阵*/ { int i,j,x,y,value; for(i=0;i=0;i--) { leng=MAX; for(j=i+1;j<=n-1;j++) if(cost[i][j]>0 && (cost[i][j]+v[j])

试题(树型动规)

1.加分二叉树(binary.c/cpp) NOIP2003提高组第3题 【问题描述】 设一个n个节点的二叉树tree的中序遍历为(l,2,3,…,n),其中数字1,2,3,…,n为节点编号。每个节点都有一个分数(均为正整数),记第j个节点的分数为di,tree及它的每个子树都有一个加分,任一棵子树subtree(也包含tree本身)的加分计算方法如下:subtree的左子树的加分× subtree的右子树的加分+subtree的根的分数 若某个子树为主,规定其加分为1,叶子的加分就是叶节点本身的分数。不考虑它的空子树。 试求一棵符合中序遍历为(1,2,3,…,n)且加分最高的二叉树tree。要求输出; (1)tree的最高加分 (2)tree的前序遍历 【输入格式】 第1行:一个整数n(n<30),为节点个数。 第2行:n个用空格隔开的整数,为每个节点的分数(分数<100)。 【输出格式】 第1行:一个整数,为最高加分(结果不会超过4,000,000,000)。 第2行:n个用空格隔开的整数,为该树的前序遍历。 【输入样例】 5 5 7 1 2 10 【输出样例】 145 3 1 2 4 5 F(I,j) I,i+1…..j 枚举K(根结点) F(I,j)=max{d[k]+f[I,K-1]*f[K+1,j]} 1…I K…..j…..n F(I,i)=d[k] F(1,n)\ 边界:空树和只含有一个结点的树 自底向上递归前序遍历(根-左-右)二维数组记录决策 时间复杂度:I j K N3 30*30*30=27000 最高加分:4*109 int 2.1*109long float double(双精度)

动态规划的优化讲义

动态规划的优化一、时间上的优化 花店橱窗布置问题(IOI99试题)。假设想以最美观的方式布置花店的橱窗,有F束花,每束花的品种都不一样,同时,至少有同样数量的花瓶,被按顺序摆成一行,花瓶的位置是固定的,并从左到右,从1到V顺序编号,V是花瓶的数目,编号为1的花瓶在最左边,编号为V的花瓶在最右边,花束可以移动,并且每束花用1到F的整数唯一标识,标识花束的整数决定了花束在花瓶中列的顺序,即如果I<J,则花束I必须放在花束J左边的花瓶中。例如,假设杜鹃花的标识数为1,秋海棠的标识数为2,康乃馨的标识数为3,所有的花束在放入花瓶时必须保持其标识数的顺序,即:杜鹃花必须放在秋海棠左边的花瓶中,秋海棠必须放在康乃馨左边的花瓶中。如果花瓶的数目大于花束的数目,则多余的花瓶必须空,即每个花瓶中只能放一束花。 每一个花瓶的形状和颜色也不相同,因此,当各个花瓶中放入不同的花束时,会产生不同的美学效果,并以美学值(一个整数)来表示,空置花瓶的美学值为0。在上述例子中,花瓶与花束的不同搭配所具有的美学值,可以用如下表格表示:

根据表格,杜鹃花放在花瓶2中,会显得非常好看,但若放在花瓶4中则显得很难看。 为取得最佳美学效果,必须在保持花束顺序的前提下,使花的摆放取得最大的美学值,如果具有最大美学值的摆放方式不止一种,则输出任何一种方案即可。题中数据满足下面条件:1≤F≤100,F≤V ≤100,-50≤A IJ≤50,其中A IJ是花束I摆放在花瓶J中的美学值。输入整数F,V和矩阵(A IJ),输出最大美学值和每束花摆放在各个花瓶中的花瓶编号。 【分析】问题实际就是给定F束花和V个花瓶,以及各束花放到不同花瓶中的美学值,需要你找出一种摆放的方案,使得在满足编号小的花放进编号小的花瓶中的条件下,美学值达到最大。 (1)将问题进行转化,找出问题的原型。首先,看一下上述题目的样例数据表格。 将摆放方案的要求用表格表现出来,则摆放方案需要满足:每行选且只选一个数(花瓶);摆放方案的相邻两行中,下面一行的花瓶编号要大于上面一行的花瓶编号两个条件。这时可将问题转化为:给定一个数字表格,要求编程计算从顶行至底行的一条路径,使得这条路径所经过的数字总和最大(要求每行选且仅选一个数字)。同时,路径中相邻两行的数字,必须保证下一行数字的列数大于上一行数字的列数。

动态规划论文

《运筹学》课程 专题论文 论文题目:浅谈不同方法在物流中心选址问题中的 应用比较 专 业: 信息与计算科学 班 级:一班 组 长:李春梅 完成人姓名及学号: 2009 年 6 月 29 日

论文评价指标与鉴定意见

浅谈不同方法在物流中心选址问题中的应用比较专业:信息与计算科学姓名:李春梅崔建青吴丹青杨木兰李斯谢欢 摘要本文指出三种选址模型即双层规划模型,动态规划模型和模糊评判模型在物流中心选址问题中的应用,从而从许多可用的选址方案中挑选出最佳选址方案。最后,通过一个具体的实例,阐述了如何解决实际的选址问题。 关键词物流中心选址双层规划动态规划模糊评判 Different methods of logistics center location Problem in the application of relatively Specialty:Information and Computing Science Name:lichunmei cuijianqing wudanqing yangmulan lisi xiehuan ABSTRACT This article pointed out that the three site selection models that are, bi-level programming model, dynamic programming model and the fuzzy evaluation model in the logistics center location problem in the application site from a number of programs available to select the best location of the program. Finally, we use a specific example on how to resolve the issue of the actual site. Key Words:Logistics center Location Bi-level programming Dynamic programming Fuzzy evaluation

动态规划之01背包问题及改进

动态规划之-0-1背包问题及改进

————————————————————————————————作者: ————————————————————————————————日期: ?

有N件物品和一个容量为V的背包。第i件物品的重量是w[i],价值是v[i]。求解将哪些物品装入背包可使这些物品的重量总和不超过背包容量,且价值总和最大。在选择装入背包的物品时,对于每种物品i,只能选择装包或不装包,不能装入多次,也不能部分装入,因此成为0-1背包问题。 形式化描述为:给定n个物品,背包容量C>0,重量第i件物品的重量w[i]>0, 价值v[i] >0, 1≤i≤n.要求找一n元向量(X1,X2,…,Xn,), X i∈{0,1}, 使得∑(w[i] * Xi) ≤C,且∑v[i] * Xi达最大.即一个特殊的整数规划问题。 数学描述为: 求解最优值: 设最优值m(i,j)为背包容量为j、可选择物品为i,i+1,……,n时的最优值(装入包的最大价值)。所以原问题的解为m(1,C) 将原问题分解为其子结构来求解。要求原问题的解m(1,C),可从m(n,C),m(n-1,C),m(n-2,C).....来依次求解,即可装包物品分别为(物品n)、(物品n-1,n)、(物品n-2,n-1,n)、……、(物品1,物品2,……物品n-1,物品n)。最后求出的值即为最优值m(1,C)。 若求m(i,j),此时已经求出m(i+1,j),即第i+1个物品放入和不放入时这二者的最大值。 对于此时背包剩余容量 j=0,1,2,3……C,分两种情况: (1)当w[i] > j ,即第i个物品重量大于背包容量j时,m(i,j)=m(i+1,j) (2)当w[i] <=j,即第i个物品重量不大于背包容量j时,这时要判断物品i放入和不放入对m的影响。 若不放入物品i,则此时m(i,j)=m(i+1,j) 若放入物品i,此时背包剩余容量为j-w[i],在子结构中已求出当容量k=0,1,2……C时的最优值m(i+1,k)。所以此时m(i,j)=m(i+1,j-w[i])+v[i]。 取上述二者的最大值,即m(i,j) =max{ m(i+1,j),m(i+1,j-w[i])+v[i] } 总结得出状态转移方程为:

1D1D动态规划优化初步

1D/1D 动态规划优化初步 所谓1D/1D 动态规划,指的是状态数为O(n),每一个状态决策量为O(n)的动态规划方程。直接求解的时间复杂度为O(n 2),但是,绝大多数这样的方程通过合理的组织与优化都是可以优化到O(nlogn)乃至O(n)的时间复杂度的。这里就想讲一讲我对一些比较初步的经典的优化方法的认识。 本文中使用两种方式表示一个函数:f(x)与f[x],用方括号表示的函数值可以在规划之前全部算出(常量),而用圆括号表示的函数值必须在规划过程中计算得到(变量)。无论是什么函数值一经确定,在以后的计算中就不会更改。 经典模型一:1 1 ()min{()[,]}x i f x f i w i ?==+x ] 相信这个方程大家一定是不陌生的。另外,肯定也知道一个关于决策单调性的性质: 假如用k(x)表示状态x 取到最优值时的决策,则决策单调性表述为: ,当且仅当: ,()()i j k i k j ?≤≤ ,对于这个性质的证明读者可以在任意一篇讲述四边形不等式的文章中找到,所以这里不再重复。而且,从实战的角度来看,我们甚至都不需要验证w 函数的这个性质,最经济也是最可靠的方法是写一个朴素算法打出决策表来观察(反正你总还是要对拍)。当然,有的时候题目要求你做一点准备工作,去掉一些明显不可能的决策,然后在应用决策单调性。这是上述性质也许会有点用处。 ,[,][1,1][1,][,1i j w i j w i j w i j w i j ?≤+++≤+++ 正如前文中所述,我们关注的重点是怎样实现决策单调性。有了决策单调性,怎样高效地实现它呢?很容易想到在枚举决策的时候,不需要从1开始,只要从k(x-1)开始就可以了,但这只能降低常数,不可能起到实质性的优化。 另一种想法是从k(x-1)开始枚举决策更新f(x),一旦发现决策u 不如决策u+1来得好,就停止决策过程,选取决策u 作为f(x)的最终决策。这样时间是很大提高了,但可惜是不正确的。决策单调性并没有保证f(j)+w[j,x]有什么好的性质,所以这样做肯定是不对的。 刚才我们总是沿着“f(x)的最优决策是什么”这个思路进行思考,下面我们换一个角度,思考对于一个已经计算出来的状态f(j),“f(j)能够更新的状态有哪些”。这样,每一步过程中某些状态的决策可能不是最优的,但是当算法结束的时候所有状态对应的决策一定是最优的。 一开始,只有f(1)的函数值被计算出来,于是所有状态的当前最优决策都是1。 111111111111111111111111111111111111111111111111111111111111111 现在,显然f(2)的值已经确定了:它的最有决策只能是1。我们用决策2来更新这个决策表。由于决策单调性,我们知道新的决策表只能有这样的形式: 111111111111111111111111111111222222222222222222222222222222 这意味着我们可以使用二分法来查找“转折点”,因为如果在一个点x 上,如果决策2更好,则所有比x 大的状态都是决策2更好;如果x 上决策1更好,则所有比x 小的状态都是

相关主题