搜档网
当前位置:搜档网 › 基于梯度归一化的模糊梯度特征提取方法

基于梯度归一化的模糊梯度特征提取方法

基于梯度归一化的模糊梯度特征提取方法
基于梯度归一化的模糊梯度特征提取方法

第38卷 第12期2006年12月

哈 尔 滨 工 业 大 学 学 报

J OURNAL OF HARBI N I NSTI TUTE OF TECHNOLOGY

V ol 38N o 12Dec .2006

基于梯度归一化的模糊梯度特征提取方法

孙广玲1,2

,唐降龙

1

(1.哈尔滨工业大学计算机科学与技术学院,哈尔滨150001;2.上海大学通信与信息工程学院,上海200072)

摘 要:提出一种应用于手写字符识别的基于梯度归一化模糊梯度特征提取方法.首先计算原图像的梯度;然后基于一定的归一化函数,得到归一化梯度;最后,基于归一化梯度,构建模糊梯度特征向量.针对归一化函数,提出了分段线性归一化函数,它能够有效减小类内样本分散度,同时具有计算简单高效的优点.针对梯度特征向量构建方法,提出了模糊梯度特征,改进了普通梯度特征向量的构建方法,提高了梯度特征吸收手写字符形变的能力.

关键词:手写字符识别;梯度归一化;分段线性归一化函数;模糊梯度特征中图分类号:TP39

文献标识码:A

文章编号:0367-6234(2006)12-2030-06

Fuzzy gradient feature extracti on m ethod based on gradient nor m alizati on

SUN Guang li n g 1,2

,TANG X iang long

1

(1.School o f Co m pute r Sc i ence and T echno logy ,H a rbin Insti tute o f T echno l ogy ,H arbi n 150001,Ch i na ;2.Schoo l of Co mmun ica ti on and Infor m a tion Eng i neering ,Shangha iU n i versity ,Shangha i 200072,Ch i na)

Abst ract :A fuzzy gradient feature ex traction m ethod based on grad ient no r m a lizati o n applied i n handw ritten character recogn iti o n is proposed .Its procedure isthatgrad i e nt o f ori g ina l i m age is ca lculated firs;t then ,nor m a lized grad i e nt is obta i n ed by use of certa i n nor m a lizati o n function ;las,t on the basis o f nor m alized gradien,t

f u zzy grad ient feature vector i s constructed .W ith regar d to nor m alization functi o n ,a piece w ise linear nor m ali zation functi o n is proposed .It can effecti v ely a ll e v i a te the diver gence o f sa m ples w ith i n class and as w ell as has m erits of h i

g

h co m putat

i o n efficiency .W ith regard to g radient feat u re vector constr uction m ethod ,fuzzy grad i e nt feature is proposed .It i m proves co mm on grad ient feature vector constr uction m et h od and its capab ility of abso r b i n g vari a ti o ns of handw ritten character is enhanced .

K ey w ords :handw ritten character recogn iti o n;grad i e n t nor m alization ;p iece w ise linear nor m alization func ti o n ;fuzzy grad ient fea t u re

收稿日期:2004-11-22.

基金项目:哈尔滨市后备人才基金资助项目(2004AFXXJ053).作者简介:孙广玲(1973 ),女,博士,副教授;

唐降龙(1960 ),男,教授,博士生导师.

特征提取是字符识别系统的重要部分.方向特征是表征字符最有效的特征之一

[1]

.梯度特征是既适用于二值图像,也适用于灰度图像的方向特征,已被应用在手写字符的识别中

[2-4]

.

通常的梯度特征提取方法都是先利用一定的归一化函数得到归一化图像,然后计算归一化图

像的梯度,最后提取梯度特征.图像归一化的任务就是对由不同位置、不同尺寸、不同书写风格和习惯等因素引起的手写字符图像的变化进行一定程

度的校正[3,5,6]

,而其最终目的是使特征提取得以

实现并且提高特征对各种变化的容忍度.本文提出一种新的梯度特征提取方法,首先计算原图像的梯度,然后基于一定的归一化函数得到归一化梯度,最后提取梯度特征.为了区别这两种梯度特征提取方法,将前者称为基于图像归一化的提取方法,将后者称为基于梯度归一化的提取方法.上面两种提取方法都需要先确定归一化函数,归一化函数意指像素坐标变换函数,可基于原图像尺寸或灰度信息和归一化方阵的尺寸信息得到.本文提出了分段线性归一化函数,它使原图像边界和质心分别与归一化方阵边界和几何中心对齐,具有校正字符偏上、下、左、右等形变的作用.

基于模糊集理论,提出了模糊梯度特征,通过建立模糊网格集和模糊方向集,改进了网格和梯度方向的硬划分方法.模糊划分增强了字符笔划在位置和方向归属上的合理性与稳定性,从而进一步提高了梯度特征吸收字符形变的能力.

1 基于梯度归一化的梯度特征提取过程

基于图像归一化和基于梯度归一化两种梯度特征提取过程如图1和图2所示.基于梯度归一化的梯度特征提取步骤:

1)计算原图像每个像素的梯度g (x,y ),0 x W,0 y H.

2)基于一定的归一化函数映射梯度向量,获得归一化方阵(x ,y )处的梯度g (x ,y ):

g (x ,y )=g (x,y )

(1)

3)根据g (x ,y ),0 x M,0 y M,构建梯度特征向量.式中:W 和H 分别表示原图像水平方向和垂直方向的尺寸;M 表示归一化方阵尺寸.

图1 基于

图像归一化的梯度特征提取过程

图2 基于梯度归一化的梯度特征提取过程

在基于归一化函数实现(x,y )和(x ,y )之间的变换时,如通过(x ,y )计算(x,y ),则计算出的(x ,y )未必是整数坐标,这样在进行梯度映射时,为了得到非整数坐标(x,y )处的梯度,需进行梯度的插值.灰度的双线性插值是基于 原图像的灰度在两个相邻的像素之间是线性变化 这一假设,因此梯度的双线性插值也应基于这样的假设.梯度反映的是图像函数的局部导数,因此可以认为满足 在两个相邻的像素之间是线性变化 的假设,所以可进行双线性插值,如公式(2)和(3)所示.

g (x ,y )=(1-a ) (1-b) g (l ,k )+a (1-b ) g (l ,k +1)+b (1-a) g (l +1,k )+a b g (l+1,k +1)(2)l =f loor(x ),k =floor(y ), a =x -l ,b =y -k

(3)

式中:l 和k 分别表示最接近并不大于x 和y 的整数.

图3表示归一化方阵中的坐标(x ,y )通过

变换函数变换为原图像中的坐标(x,y ),而(x,y )处的梯度由其相邻的4个像素的梯度g (l ,k ),g (l ,k +1),g (l +1,k),g (l +1,k +1)的双线性组合计算,如式(2).

图3 梯度插值示意图

2 分段线性归一化函数

提出一种 分段线性归一化函数 ,其参数由要求对齐的原图像边界坐标和归一化方阵边界坐标以及原图像质心坐标和归一化方阵几何中心坐标来确定,如下式所示.x =

x c

M /2

(x -x c )+x c ,if 0 x x c

x =(W 1-x c )M /2(x -x c )+x c ,if x c

,

y =

y c

M /2

(y -y c )+y c ,if 0 y y c

y =

(H 1-y c )

M /2

(y -y c )+y c ,if y c

0 x W,0 y H,0 x M,0 y M

(4)式中:W,H,M,x,y,x ,y 的含义同第2部分解释

的含义.(x c ,y c )表示原图像质心坐标,(x c ,y c )表示归一化方阵几何中心坐标,即x c =M /2,y c =M /2.可以看到,在x c 和y c 决定的不同区间内,采用了不同的线性函数,因此称为分段线性函数.当原图像质心坐标与原图像几何中心坐标重合时,分段线性函数就是线性函数.分段线性归一化函数能够有效减小类内样本分散度,且具有计算简单高效的优点.

从归一化函数应用于图像归一化的角度,分析一下分段线性归一化函数对于减小类内样本分散度作用的原理.字符图像质心与几何中心的相对位置反映了字符偏上、下、左、右等变形情况,而质心相对于几何中心的分散度也是评价类内样本分散度的有效依据.如果用(x c ,y c )表示使用线性归一化函数的归一化方阵的质心坐标,用(x c ,y c )表示使用分段线性归一化函数的归一化方阵的质心坐标,则在使原图像和归一化方阵边界对齐的同时,也使原图像的质心与归一化方阵的几何中心对齐的效果是,对于质心偏左的原图像,相

2031 第12期孙广玲,等:基于梯度归一化的模糊梯度特征提取方法

当于向右拉伸了x c ,即x c >x c ;对于质心偏右的原图像,相当于向左拉伸了x c ,即x c y c ;对于质心偏下的原图像,相当于向上拉伸了y c ,即y c

3 模糊梯度特征

基于模糊集理论

[7]

,将方向和网格都定义为

模糊集,并定义合适的隶属度函数.在定义了模糊方向集和模糊网格集之后,梯度的方向和像素坐标都不再唯一地属于一个方向集和一个网格集,而是以不同的隶属度属于各模糊方向集和各模糊网格集.基于模糊方向集和模糊网格集提取的梯度特征称为模糊梯度特征.下面分别说明模糊方向集和模糊网格集及定义相应的隶属度函数.3.1 模糊方向集

设论域 是像素的方向,可定义如下的n 个模糊方向集:

D i ={( (x,y ), D i

( (x ,y )))| (x,y ) }, i =1,2, ,n

(5)

(x,y )表示坐标为(x,y )的像素的方向, D i (

(x,y ))是 (x,y )在模糊方向集D i 中的隶属度,我们定义了如式(6)和式(7)的三角形隶属度函数. D 1( (x,y ))=

n

- 2+ (x,y ) n

,- 2 (x ,y )<- 2+

n ;

n

- 2- (x,y ) n

, 2- n (x ,y )< 2;0, 其他.

(6)

D

( (x,y ))= i - n (x,y )< i +

n ; i =-

2+

n

(i -1)(7)

3.2 模糊网格集

设论域C 是归一化方阵中像素的坐标,类似于模糊方向集的定义,可定义m m 个模糊网格集:

G c j ,k ={((x,y ), G c

j,k

(x,y ))|(x,y ) C }0 x M -1,0 y M -1,j =1,2, ,m,k =1,2, ,m

(8)

M 是归一化方阵的尺寸,(x,y )表示像素的坐标, G

j

,k (x,y )是(x ,y )在模糊网格集G j ,k 中的隶属度,我们定义了如式(9)的分段常值隶属度

函数. G

j

,k (x,y )=1,d ((x ,y ),c j,k ) N -0 50 75,N +0 5 d ((x ,y ),c j,k ) 2N -0 50 5,2N +0 5 d ((x,y ),c j ,k ) 3N -0 50 25,

3N +0 5 d ((x,y ),c j ,k ) 4N -0 5

(9)

c j ,k =(x j ,k ,y j ,k ),

x j ,k =4N j -0 5y j ,k

=4N k -0 5

,

d ((x,y ),c j ,k )=m ax (|x -x j,k |,|y -y j ,k |)式中:N 是大于0的正整数,具体取值应根据归一化方阵的尺寸来确定.

选择隶属度函数形式的原则是它的简单性和

合理性.至此,基于这模糊方向集和模糊网格集及相应隶属度函数的定义,可依如下过程构建模糊梯度特征向量:

1)建立n 个模糊方向集,n 满足n =2k

,k 2.

2)建立m m 个模糊网格集,m 由归一化方阵尺寸和N 确定.

3)分别计算 (x ,y )和(x ,y )对于n 个模糊方向集和m m 个模糊网格集的隶属度.

4)计算对应于D i 和G j ,k 的特征 t j

,k i : t j

,k i =

p

r(x p ,y p ) D i ( (x p ,y p )) G j,k

(x p ,y p )i =1,2, ,n, j =1,2, ,m, k =1,2, ,m

(10)p 表示归一化方阵中所有的像素.

5)基于 t j

,k i ,得到模糊梯度特征向量 T =[ t 1,1

1, t 1,2

1, t m,m

1, , t 1,1

n , t 1,2

n , , t m,m

n ]T

,其维数是m m n.

可以看出,当方向和网格都是硬划分时, D i ( (x,y ))和 G

j

,k (x,y )就是非0即1,模糊梯度 2032 哈 尔 滨 工 业 大 学 学 报 第38卷

特征将退化为普通梯度特征,也就是说,普通梯度特征是模糊梯度特征的特例.

图4和图5分别是模糊方向集和模糊网格集的示意图.图4显示了相邻的两个模糊方向集的

图4 模

糊方向集的隶属度函数示意图

图5 模糊网格集的隶属度函数示意图

隶属度函数,实线表示一个模糊方向集,虚线表示另一个模糊方向集.在一个模糊方向集中隶属度为1的方向在相邻的模糊方向集中隶属度为0.图5显示出在x 方向上相邻的两个模糊网格集的隶

属度函数,实线表示一个模糊网格集,虚线表示另一个模糊网格集.图中显示的是满足d ((x,y ),c j ,k )=|x -x j ,k |的像素的坐标随x 的取值而隶属于模糊网格集的情况.

4 实验结果与分析

本文的实验建立于三个样本库之上,它们是M od ified N I ST (MN IST)手写数字样本库,US Post al Serv ice(USPS)手写数字样本库,HCL2000一级手写汉字样本库[8]

.

测试了各梯度特征提取方法及各归一化函数的不同组合在3个样本库测试集上的错误率,使用的分类器是街区距离分类器,模板是训练样本的均值.

根据各样本库原图像的尺寸,将两个手写数字样本库归一化方阵的尺寸都设置为32 32;而

将手写汉字样本库归一化方阵的尺寸设置为64 64.特别地,对于H CL2000样本库,在特征提取之前,对原图像进行了均值滤波以平滑噪声,同时得到了灰度图像.

为了使特征向量的分布接近高斯分布,对提取出的原始梯度特征向量作了Box -Cox 变换

[9]

,其定义为:t =t p

.变换后的T =[t 1,t 2,

t D ]供特征变换和识别使用.对不同的问题,p 应取不同的值.通过实验数据的测试,对MN I ST 样本库,取p =0 25;对USPS 样本库,取p =0 4;对HCL2000样本库,取p =0 5. 实验1

统一采用基于图像归一化的梯度特征提取方

法,使用线性归一化函数.下面说明这两种梯度特征方向和网格参数的设置情况.

1)普通梯度特征(CGF)的维数

设n =8;根据MN I ST 和USPS 的归一化尺寸,设每个网格的尺寸为4 4,则m =8;根据HCL2000的归一化尺寸,设每个网格的尺寸为8 8,则m =8;这样,这三个样本库的普通梯度特征向量的维数都是8 8 8=512.

2)模糊梯度特征(FGF)的维数

设n =8;根据MN I ST 和USPS 的归一化尺寸,设N =1,则m =7;根据H CL2000的归一化

尺寸,设N =2,则m =7.这样,这三个样本库的模糊梯度特征向量的维数都是7 7 8=392. 表1的测试结果说明,在上述比较合适的方向和网格参数的设置情况下,模糊梯度特征的错误率明显低于普通梯度特征的,这说明方向和网格的模糊划分的确在很大程度上提高了特征的稳定性.在下面的实验中,将只考察模糊梯度特征的错误率.

表1 普通梯度特征和模糊梯度特征的错误率

MN IST

USPS HCL2000普通梯度特征13 1811 4632 98模糊梯度特征

8 77

8 82

26 19

实验2

为了叙述的方便,将线性归一化函数简称为函数1,将基于密度均衡的非线性归一化函数简称为函数2,将分段线性归一化函数简称为函数

3;将基于图像归一化的梯度特征提取方法简称为方法1,将基于梯度归一化的梯度特征提取方法简称为方法 2.表2~4给出了MN IST,USPS 和HCL2000在不同归一化函数和不同提取方法下的错误率.

2033 第12期孙广玲,等:基于梯度归一化的模糊梯度特征提取方法

表2 基于不同归一化函数和不同提取方法的M N IST 的

错误率

函数1

函数2函数3方法18 7711 087 5方法2

8 01

11 27

5 87

表3 基于不同归一化函数和不同提取方法的U SPS 的错

误率

函数1

函数2函数3方法18 8210 716 83方法2

7 92

10 31

5 68

表4 基于不同归一化函数和不同提取方法的HCL 2000

的错误率

函数1

函数2函数3方法126 1920 6917 09方法2

25 53

25 00

16 02

先比较不同归一化函数的效果.对于MN I ST 和USPS 这两个数字样本库来说,使用函数2的

错误率在两种方法中都是最高的,而对于HCL2000来说,使用函数2的错误率在两种方法中都低于函数1的,而高于函数3的.这说明函数2对于笔划多且分布较复杂的字符的变形,的确有一定的校正作用,起码其校正效果要强于函数1的.而对于数字这种笔划简单且整体性强的字符图像,却是函数1和函数3这类全局函数更有效.总体来说,函数3的效果是最好的,因为对于三个样本库来说,函数3在两种方法中都获得了最低的错误率.

现在比较不同提取方法的效果.对于函数1和函数3而言,方法2的错误率都低于方法1的;而对于函数2而言,测试结果却并不一致,对于MN IST 和H CL2000,方法1的错误率都是最低的,对于USPS ,方法2获得了最低的错误率.这说明对于函数1和函数3这类全局函数,方法2更具有优越性,而对于函数2这种局部函数,方法2并不具有明显的优越性,至少对于MN I ST 和HCL2000来说,方法2的错误率都高于方法1的,

也就是说,函数2更适合与方法1结合完成梯度特征提取.

总的结果是,对于这三个样本库来说,最低的

错误率都来自于函数3和方法2.由此可以认为,提出的分段线性归一化函数和在使用全局归一化函数的情况下,基于梯度归一化的模糊梯度特征提取方法具有优越性.

图6和图7显示了基于不同提取方法和归一化函数的几个数字图像和汉字图像的梯度方向图和梯度幅值图.图6的最左边一列是原图像,然后从左向右依次是基于不同提取方法和归一化函数组合产生的梯度方向图和梯度幅值图,分别是方法1和函数1、函数2和函数3的组合及方法2和函数1、函数2和函数3的组合;图7中最左边一列是原二值图像,第二列是均值滤波后的灰度图像,然后从左向右的图像与图6的相同.这些图像显示的效果符合我们对于各归一化函数的分析;同时,对于函数1和函数3来说,方法2比方法1的梯度幅值图的边缘和背景对比更明显,而对于函数2来说,结果却是相反的.而字符的特征体现于字符图像的边缘上,因此边缘和背景的对比越明显越有利于突出字符的特征,这也从一个方面解释了表2~4给出的实验结果

.

图6 数字图像的梯度方向图和梯度幅值图

图7 汉字图像的梯度方向图和梯度幅值图

2034 哈 尔 滨 工 业 大 学 学 报 第38卷

5 结 论

1)模糊梯度特征的错误率低于普通梯度特征的错误率.

2)基于梯度归一化的模糊梯度特征提取方法和分段线性归一化函数的组合获得了最低的错误率.

参考文献:

[1]FU JISAWA H,L I U Cheng li n.D i recti ona l P atte rn M atc

h i ng fo r Character R ecognition R ev i sited[A].P roceed

ings o f the Seventh Interna ti ona l Con ference on D ocu m ent

A nalysis and R ecogn iti on[C].Ed i nburgh,Sco tl and,

2003,2:794-798.

[2]S H I M,FU JIS AW A Y,W AKA BAYA S H I T,et al.

H and w r itten nu m eral recognition using grad i ent and cur

va t ure of g ray sca l e i m age[J].Pa ttern R ecognition, 2002,35(10):2051-2059.

[3]K I U Cheng li n,NAKAS H I M A K,SAKO H,et al.H and

w r itten dig i t recognition:Investi gation o f nor m a liza ti on and feature ex tracti on techn i ques[J].P attern R ecogn i ti on,2004,37:265-279.

[4]L I U Cheng li n,NAKA S H I MA K,SAKO H,et al.H and

w r itten d i g it recogn iti on:Bench m ark i ng of state o f the art techniques[J].P atte rn R ecogn i tion,2003,36:2271-2285.

[5]L I U Cheng lin,SAKO H,FU JISAWA H.H and w r itten

Chi nese Character R ecogn iti on:A lternati ves to N onli near N o r m ali zati on[A].P roceedings of t he Seventh Interna ti onal Conference on Docu m ent Ana l ys i s and R ecogn iti on

[C].Ed i nburgh,Sco tl and,2003,1:524-528.

[6]de OL I VER I A J J,Jr V ELO SO L R,de CARALHO J

M.Inte rpo lati on/deci m a ti on Sche m e A pp lied to S ize N o r m alizati on of Charac ters I m ages[A].P roceed i ngs of the

F ifteenth In ternati onal Conference Pattern R ecogn iti on

[C].Barce l ona,Spa i n,2000,2:577-580.

[7]张智星,孙春在,[日]水谷英二.神经-模糊和软计

算[M].西安:西安交通大学出版社,2000.

[8]张洪刚.H CL2000汉字数据库与高精度识别算法的

研究[D].北京:北京邮电大学,1999.

[9]W AKABAYA S H I T,TSURUOKA S,K I MURA F,et al.

O n the s i ze and variab le transfor m ati on of fea t ure vec t o r for handw ritten charac ter recognition[J].T rans IEICE Japan,1996,J76-D-II(12):2495-2503.

(编辑 赵丽莹)

(上接第2029页)

2)词义相同、相似或者相关的词语经常出现在大体相同的上下文语言环境.在特定的语言环境中,词与词之间不是孤立的,而是相互关联相互作用的,那些与歧义词词义相同或者相似的单义词在语料中包含的信息是潜在的有价值信息,适当的收集、加工和处理对词义消歧具有很大的帮助.

参考文献:

[1]鲁松,白硕.基于向量空间模型中义项词语的无导词

义消歧[J].计算机研究与发展,2001.38(6):662-667.

[2]PEDERSEN.L ex ical se m antic a m biguous w ord reso l u

ti on w ith b i gra m-based dec isi on trees[C]//P roceed ings o f t he Second Internati onal Confe rence on Intelligent T ex t P rocessi ng and Co m puta tiona l L i ngu i sti cs.C i ty:[s.

n.],2001:157-168.

[3]ESC UDERO G,M ARQU EZ L.N a ive B ayes and ex a m p

lar-based appro aches to wo rd sense disamb i guati on re v isited[C]//Proceed i ng s of the14th Europear Con f e r ence on A rtificia l Inte lli gence,ECA I.[s..l]:[s.n.], 2000.

[4]ADAM L B.A m ax i m u m entropy approach to nat u ra l

language proceedi ng[J].Co m puta tiona l L i ngu istics, 1996,22(1):39-71.

[5]L I J Z.An i m proved m ax i m u m language and its applica

ti on[J].Journa l of soft w are,1999(3):257-263. [6]SC TZE H.A uto m atic w ord sense discr i m ina ti on[J].

Co m puta tiona l L i ngu i sti cs,1998,24(1):97-124. [7]蔡文.可拓逻辑初步[M].北京:科学技术文献出版

社,2003.

[8]梅家驹.同义词词林[M].上海:上海辞书出版社,

1996.

[9]鲁松,白硕.自然语言处理中词语上下文有效范围的

定量描述[J].软件学报,2001,24(7):742-747.

(编辑 杨波)

2035

第12期孙广玲,等:基于梯度归一化的模糊梯度特征提取方法

归一化方法

1.1 1.2 归一化方法 数据的归一化的目的是将不同量纲和不同数量级大小的数据转变成可以相互进行数学运算的具有相同量纲和相同数量级的具有可比性的数据。数据归一化的方法主要有线性函数法、对数函数法、反余切函数法等 线性函数法 对于样本数据x (n ),n =1,2,……,N ,归一化后的样本数据可以采用三种表示方法,分别是最大最小值法、均值法和中间值法。最大最小值法用于将样本数据归一化到[0,1]范围内;均值法用于将数据归一化到任意范围内,但最大值与最小值的符号不可同时改变;中间值法用于将样本数据归一化到[-1,1]范围内,三种方法的公式分别如式(0-1)、式(0-2)、式(0-3)所示。 ()(()min(()))(max(())min(())),1,2, ,y k x k x n x n x n k N =--= (0-1) 1 () 1(),1,2, ,,()N i x k y k A k N x x i N x ==== ∑ (0-2) ()(),1,2,,1 (max(()))2 min(())mid x n x k x y k k N x n -= =- (0-3) max(())min((),1,2, ,2 ) mid x n n n N x x += = (0-4) 其中min(x (n ))表示样本数据x (n )的最小值,max(x (n ))表示样本数据x (n )的最大值,x 表示样本数据x (n )的均值,mid x 为样本数据x (n )的中间值,A 为调节因子,是一个常数,用于根据工程实际需要来调节样本数据的范围。 对数函数法 对于样本数据x (n ),n =1,2,……,N,归一化后的样本数据y (n )用公式表示为: 10()log (()),1,2, ,y k x k k N == (0-5) 对数函数法主要用于数据的数量级非常大的场合。 反余切函数法 对于样本数据x (n ),n =1,2,……,N ,归一化后的样本数据y (n )用公式表示为:

步态识别方法的分类及各类方法的比较

步态识别方法的分类及各类方法的比较 程汝珍1,2 1河海大学计算机及信息工程学院,江苏南京(210098) 2水文水资源与水利工程科学国家重点实验室,江苏南京(210098) E-mail:chengruzhen@https://www.sodocs.net/doc/064735214.html, 摘要:步态识别是生物特征识别技术中的一个新兴领域,它旨在根据个体的行走方式识别身份。步态识别主要是针对含有人的运动图像序列进行分析处理,所涉及到的几项关键技术包括:视频处理、图像处理、模式识别。步态识别分析可以划分为特征抽取、特征处理和识别分类三个阶段。在最近的文献中已经有许多研究尝试,提出了许多步态识别的具体方法。但国内外尚无将步态识别技术分类,本文提出了步态识别的六类分类法,且初步比较了每类方法的适用范围和优缺点,使读者较为全面了解步态识别技术现状。 关键词:步态识别;分类;适用范围;优缺点;比较 中图分类号:TP391.4 1.引言 步态识别是生物特征识别技术中的一个新兴领域,它旨在根据个体的行走方式识别身份[1]。根据早期的医学研究[2]人的步态有24个不同的分量,在考虑所有的步态运动分量的情况下步态是唯一的。精神物理学[3]中的研究结果显示即使通过受损的步态信息人们也能够识别出身份,这表明在步态信号中存在身份信息。 步态识别主要是针对含有人的运动图像序列进行分析处理,所涉及到的几项关键技术包括:视频处理、图像处理、模式识别[4]。步态识别分析可以划分为特征抽取、特征处理和识别分类三个阶段[5]。 步态识别部分 图1 步态自动识别系统框图 Fig1 the framework of gait automatic recognition system 步态识别系统的一般框架如图所示[6]。监控摄像机首先捕捉监控领域来人的行走视频,然后送入计算机进行检测和跟踪,提取人的步态特征,最后结合已经存储的步态模式进行身份识别。若发现该人是罪犯或嫌疑人,系统将自动发出警告。

(完整word版)重力数据处理过程

数据处理与异常推断解释 一、数据处理方法的选择 实测的重力异常是地下由浅至深各类地质体的物性差异在地面综合叠加效 应,其中包括界面起伏,岩性不均匀等诸多地质因素在内。为了从实测异常中提取和强化有用信息,压抑干扰噪声,提高重力勘探综合地质解释的能力,故需对 实测资料进行数据处理和综合分析。 1、数据处理目的 通过不同的数据处理手段,达到突出区域重力场信息、突出与强化断裂带异常信息、突出局部重力异常信息,有效地克服或压制不同干扰异常。顺利达到完成区域重力场特征分析、提取剩余异常、断裂构造划分与分析,圈定钾矿成矿有利部位等地质任务。 2、常用的数据处理方法 数据处理采用中国地质调查局发展研究中心推广的多元信息处理系统软件—GeoExpl及中国地质大学MAGS软件进行数据处理。数据处理的目的是在消除各类误差的基础上从叠加场中分离或突出某些目标物的场,并使其信息形式(或信息结构)更易于识别和定量解释。 常用的处理方法有:各种滤波、趋势分析、解析延拓(上延和下延)、导数转换(水平和垂直导数)、圆滑(圆环法和窗口法)、多次切割、差值场法、小波多尺度分析法等方法。 (1)、数据网格化 为空间分析模块及其它数据处理提供数据源。本次采用克里格法,200米×200米,搜索半径1500米。 (2)、异常分离 采用不同滤波因子的正则化滤波、差值场法、小波多尺度分析法、向上延拓等,可分别求取“区域场”和“局部场”,达到异常分离目的。 (3)、延拓处理 向上延拓:压制了浅部小的地质体场的干扰,了解重力异常衰减规律,随着上延高度增加,突出了深部大的地质体的场。区域场反映了测区深部地质环境和

地质构造特征的差异性,为测区地质构造分区划分提供了重要信息;本次向上延拓自100 m、200 m、500 m、1000 m、2000 m,共5个高度。 向下延拓:利用向下延拓可以分离水平叠加异常。密度体埋深大,异常显得宽缓。越接近密度体,异常的范围越接近其边界。本次向下延拓自100 m、200 m、300m、500 m四个高度。 (4)、水平方向导数及水平总梯度 为了准确划分断裂构造,可求取不同方向的水平方向导数、水平总梯度,以及必要时进行“线性增强”处理。 △gu=(Vxz2+Vyz2)1/2。其中Vxz是重力异常沿X方向的一阶导数,Vyz是重力异常沿Y方向的一阶导数。水平总梯度与水平方向导数结合,可以更加准确划分和解释断裂构造。 (5)、垂向导数 垂向导数不仅在局部异常分析中起重要作用,主要突出浅源异常,而且垂向二阶导数的0值区(线)与岩体边界关系密切。 (6)、小波多尺度分析法 把小波多尺度分析方法应用于重磁测资料处理,野外观测值ΔG经一阶小 波分解,得到局部场ΔG 局1和区域场ΔG 区1 ,把ΔG 区1 作二阶小波分解得ΔG 局2 到和ΔG 区2,再把ΔG 区2 作三阶小波分解可得ΔG 局3 和ΔG 区3 ,…,还可以继续分 解下。分解阶数视异常的特征和地质情况来决定,解释时赋于小波逼近部分和各阶的细节明确的地质意义。 根据小波多辩分析的原理,及小波细节的微分特征,实现对位场的多尺度分解及断裂分析。 根据本次1:2.5万重力调查工作的目的任务,重点在于提取可靠的局部重力低值异常,因此,在异常分离上采用多方法进行处理,对比选择抗干扰能力强的方法提取弱局部重力异常。 二、重力异常定性解释 重力异常的解释必需以地层岩石物性资料为基础,注重平面与剖面相结合,定性解释与定量解释相结合,正演与反演相结合。人们对客观事物的认识过程是一个不断实践—认识—再实践的反复过程。同样,对重力资料的处理解释亦是如

文本特征提取方法

https://www.sodocs.net/doc/064735214.html,/u2/80678/showart_1931389.html 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。 文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。 目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)。

重磁电勘探读书报告

《重磁电勘探》结业作业 学生姓名:周昆 专业班级:资工(基)11202 班级序号:35号 指导教师:刘启民 时间:2014.12.5

中国重力勘探技术及方法的发展与展望 [摘要] 本篇文章是对新世纪里的重力勘探的仪器、数据处理技术、解释理论与方法、应用领域等方面的发展进行了分析与展望。开展卫星重力测量,综合卫星、航空、地面重力测量资料研究地球结构与构造;发展高精度数据处理技术;发展复杂条件下三维重力场多参数综合反演可视化技术以及快速自动反演技术。 [关键词]中国重力勘探技术;发展;前景与展望 1引言 在中国,以地质构造为主要研究对象的重力勘探方法已经历了一个长期和成功的历史。从50年代初期,重力勘探开始应用于我国的地质找矿试验工作,此后随着地质工作的不断深入开展以及现代数学物理理论与计算机科学的迅速发展,促使重力勘探在仪器、方法技术、解释理论以及实际应用等各方面得到了全面系统的发展。重力勘探已成为研究地质构造的重要手段,在解决以下地质问题中取得了肯定的效果:(1)大地构造单元划分;(2)基底起伏和内部结构;(3)追索大的构造破碎带和断层;(4)圈定沉积盆地范围和内部构造;(5)侵入岩的空间分布和深部形态;(6)岩石圈均衡状态和上地慢密度横向不均匀性,详细重力测量在地质填图和矿产勘查中也发挥了重要作用。当前,重力勘探已在区域地质调查、能源和固体矿产普查、工程地质调查,以及深部构造研究中得到广泛应用,这与方法技术上的进步是密切相关的。重力勘探方法如何进一步发展以适应科学研究和经济发展的需要是当前面临的关键问题。 文章在分析当前重力方法进展的基础上,从现代数理理论与计算机科学的发展和新的需求角度,对重力方法从仪器、数据处理技术、解释理论与应用等方面进行了评估与展望。 2重力勘探技术的改进和发展 2.1高精度重力勘探技术的应用 高精度重力勘探技术是建立在位场理论、电子技术和计算机技术高度发展的基础上。它的野外工作方法是在小面积范围内采用大比例、密测网和小点距工作。该技术的发展及其特征如下: ①较早的外国重力仪有诺加、握尔登重力仪,后来发展到精度较高的索丁和拉科斯特(:Lacoste)重力仪。1991年我国引进了使用亚菲尼特(Affinity)仪的美国艾菲系统;1993年西北地质研究所从俄罗斯引进了使用THY一B型重力仪的GONG 技术。拉科斯特D型、G型重力仪由美国70年代研制成功,是目前国内外使用最广的一类重力仪。它以零点漂移小,精度高、重量轻和操作方便而著称。②高

特征提取方法

4.2.2 特征提取方法 图像经过一系列的预处理之后,原来大小不同、分布不规则的各个字符变成了一个个大小相同、排列整齐的字符。下面接要从被分割归一处理完毕的字符中,提取最能体现这个字符特点的特征向量。将提取出训练样本中的特征向量代入BP网络之中就可以对网络进行训练,提取出待识别的样本中的特征向量代入到训练好的BP网络中,就可以对汉字进行识别。 特征向量的提取方法多种多样,可以分为基于结构特征的方法和基于像素分布特征的方法,下面给予简单介绍,并说明本文所用的方法。 (1)结构特征。结构特征充分利用了字符本身的特点,由于车牌字符通常都是较规范的印刷体,因此可以较容易地从字符图像上得到它的字符笔画信息,并可根据这些信息来判别字符。例如,汉字的笔画可以简化为4类:横、竖、左斜和右斜。根据长度不同又可分为长横、短横、长竖和短竖等。将汉字分块,并提取每一块的笔画特征,就可得到一个关于笔画的矩阵,以此作为特征来识别汉字。 (2)像素分布特征。像素分布特征的提取方法很多,常见的有水平、垂直投影的特征,微结构特征和周边特征等。水平、垂直投影的特征是计算字符图像在水平和垂直方向上像素值的多少,以此作为特征。微结构法将图像分为几个小块,统计每个小块的像素分布。周边特征则计算从边界到字符的距离。优点是排除了尺寸、方向变化带来的干扰,缺点是当字符出现笔划融合、断裂、部分缺失时不适用。 ①逐像素特征提取法 这是一种最简单的特征提取方法。它可以对图像进行逐行逐列的扫描,当遇到黑色像素时取其特征值为1,遇到白色像素时取其特征值为0,这样当扫描结束后就获得一个维数与图像中的像素点的个数相同的特征向量矩阵。 这种特征提取方法的特点就是算法简单,运算速度快,可以使BP网络很快的收敛,训练效果好,更重要的是对于数字图像这样特征较少的图像,这种方法提取的信息量最大,所以对于本系统来说,这种方法较为适用。但是它的缺点也很明显,就是适应性不强,所以本文没有选用这种方法。 ②骨架特征提取法

中国地质大学(武汉)2018考研大纲:913勘查地球物理

中国地质大学(武汉)2018考研大纲:913 勘查地球物理 的更新! 中国地质大学(武汉)2018考研大纲:913勘查地球物理 中国地质大学研究生院硕士研究生入学考试《勘查地球物理》考试大纲 一、试卷结构 (一)内容比例 试卷内容包括重磁勘探、电法勘探、地震勘探、测井等4个方面的地球物理方法原理、处理、解释等问题,试题设置为选做,考生可根据题目要求任意选择其中的2个方面的问题进行回答。 重磁勘探部分最多60% 电法勘探部分最多60% 地震勘探部分最多60% 测井部分最多60% (二)题型比例 名词解释题或简答题等约20% 问答题(包括论述题、计算题、作图题、分析题等) 约80% 二、其他

勘查地球物理概论 要求考生至少掌握重磁勘探、电法勘探、地震勘探、测井等4个方面的地球物理方法中的任意2个方面的方法原理、处理和解释知识。 一、重磁勘探 考试内容 1、地球磁场的基本特征;地磁要素其分布规律;地磁图;地球磁场的球谐表示;IGRF;地球磁场的主要组成部分(中心偶极子场、非偶极子场、长周期变化、短期变化、磁异常等)及其特点。 2、物质的磁性;表征磁性的物理量(磁化率、磁导率、磁化强度、感应磁化强度、天然剩余磁化强度,等);各类岩(矿)石的一般磁性特征;岩(矿)石的磁性及影响因素,岩(矿)石天然剩余磁化强度类型、成因及其特点;地质体磁化的消磁作用。 3、磁力仪主要类型及工作原理:质子磁力仪、光泵磁力仪、磁通门磁力仪的基本工作原理;质子磁力仪探头的工作盲区与梯度容限。 4、磁法勘探野外工作方法:测区、测网、比例尺的确定;磁测精度;日变观测及日变校正;磁测基点;磁测数据采集与资料整理图示;岩(矿)石磁性标本的采集与磁性参数测量。 5、计算磁性体磁异常的基本公式:泊松公式及其应用;有效磁化强度和有效磁化倾角;总磁场强度异常ΔT及其物理意义;球体、水平圆柱体、板状体等规则几何形状地质体磁场的计算,及其ΔT、Ha、

步态识别论文

课程论文 步态识别 学号:12426009 班级:通信122 :楚舒琦 目录 摘要 (3) 一、背景介绍 (4)

二、相关研究 (4) 三、主题(算法) (5) 3.1基于线图模型的动态特征提取 (6) 3.2基于整体的静态特征提取 (8) 3.3识别 (9) 四、实验 (9) 五、结果讨论 (12) 六、总结 (12) 七、应用前景 (13) 八、技术难点及解决途径 (14) 8.1技术难点 (14) 8.2解决途径 (15) 九、参考文献 (16)

摘要 步态识别是一种新兴的生物特征识别技术,旨在通过人们走路的姿态进行身份识别,与其他的生物识别技术相比,步态识别具有非接触远距离和不容易伪装的优点。在智能视频监控领域,比面像识别更具优势。对步态识别的优缺点以及步态识别所涉及到的运动分割、特征提取与选择、模式识别算法进行了综述,并对步态识别中存在的问题与未来的研究方向进行了讨论。 关键词:生物特征识别;步态识别;特征提取;运动分割;动态时间规正

一、背景介绍 步态是指人们行走时的方式,这是一种复杂的行为特征。罪犯或许会给自己化装,不让自己身上的哪怕一根毛发掉在作案现场,但有样东西他们是很难控制的,这就是走路的姿势。英国南安普敦大学电子与计算机系的马克·尼克松教授的研究显示,人人都有截然不同的走路姿势,因为人们在肌肉的力量、肌腱和骨骼长度、骨骼密度、视觉的灵敏程度、协调能力、经历、体重、重心、肌肉或骨骼受损的程度、生理条件以及个人走路的"风格"上都存在细微差异。对一个人来说,要伪装走路姿势非常困难,不管罪犯是否带着面具自然地走向银行出纳员还是从犯罪现场逃跑,他们的步态就可以让他们露出马脚。 人类自身很善于进行步态识别,在一定距离之外都有经验能够根据人的步态辨别出熟悉的人。步态识别的输入是一段行走的视频图像序列,因此其数据采集与面像识别类似,具有非侵犯性和可接受性。但是,由于序列图像的数据量较大,因此步态识别的计算复杂性比较高,处理起来也比较困难。尽管生物力学中对于步态进行了大量的研究工作,基于步态的身份鉴别的研究工作却是刚刚开始。步态识别主要提取的特征是人体每个关节的运动。到目前为止,还没有商业化的基于步态的身份鉴别系统。 二、相关研究 信息融合:感知融合是人类感知外部世界的本能之一。人类可以非常自然地运用这一能力把来自人体各个感知器官眼耳鼻四肢的信息图像声音气味触觉组合起来并使用先验知识去估计理解和识别周围的环境以及正在发生的事情。融合理论正是对人类这一本能的模仿旨在利用计算机技术对按时序获得的多源观测信息在一定准则下加以自动分析综合以完成所需的决策和估计任务而进行的信息处理过程。 信息融合的基本原理就像人脑综合处理信息一样充分利用多源信息通过对这些多源的观测信息的合理支配和使用把多源信息在空间或时间上的冗余或互补依据某种准则来进行组合以获得被测对象的一致性解释或描述。按照信息抽象的个层次可将信息融合分为3级(像素级融合特征级融合和决策级融合)。 像素级融合是在采集到的原始数据上进行的融合是原始测报未经预处理之前就进行的综合和分析是最低层次的融合。

重力勘探—重力异常的数据处理

第四章重力异常的数据处理 布格重力异常反映了地壳内部物质密度的不均匀性,即从地表到地下几十公里的地壳深部,只要物质密度横向发生变化,在地下不同的空间和范田内形成剩余质量,就可以引起地表的重力异常。定性解释侧重于判断引起异常的地质原因,并粗略估计产生异常的地质体的形状、产状及埋深等。 定量解释则是通过理论计算.对地质体的规模、形状、产状及埋深等作出具体解答。 重力异常的推断解释的步骤: ①阐明引起异常的地质因素具体地说,就是确定异常是浅部因素还是深部因 素引起,是矿体还是构造或其它密度不均匀体(岩性变化、侵入体等)的反映。——定性解释 ②划分和处理实测异常重力异常图往往是地表到地球深处所有密度不均匀体 产生的异常的叠加图象。为了获取探测对象产生的异常,需要将它们进行划分。不同的研究目的提取的异常信息不同,例如,矿产调查要提取队是矿体或没部构造产生的局部异常;而深部重力研究的目标正好相反,需要划分出的是反映地壳深部及上地幔的区域异常。 ③确定地质体或地质构造的赋存形态一是根据已知地质体或地质构造的 形状、产状及埋深等.研究它们引起的异常的特征,包括异常的形状、幅度、梯度及变化规律等。二是根据异常的形态及变化规律等,确定地质体或地质构造的形状、产状、埋深及规模等。前者足由源求场,称为止(演)问题;后者是由场求源,称为反(演)问题。正问题是反问题的基础,而求解反问题则是定量解择的最终目的。 §4.1 重力异常的主要地质原因 一.地壳深部因素

莫霍洛维奇面:地壳与上地馒之间存在着一个界西 地壳厚度各地不同,大陆平原地区大约20~30km,高山区为40~60km,西藏高原达60km以上,海洋区为10~20km,最薄处仅数公里。这一界面上下物质密度差达0.3g/cm3以上,界面以上的硅镁层密度为 2.8~3.0g/cm3,硅侣层为2.5~2.7g/cm3,界面以下物质密度为3.3~3.4g/cm3。 该界面的起伏引起地表重力变化的特点是导常分布植围广,幅度变化大。地形海拔越高,地壳越厚,布格重力异常就越低,而海洋地区一般显示重力异常高。 地壳厚度变化与布格力异常存在近似的线性关系。内比可见,地壳深部对重力异常的影响主要来源于莫氏界面的起伏。重力异常形态与地形起伏呈镜像关系。

肺结节检测中特征提取方法研究

小型微型计算机系统JournalofChineseComputerSystems2009年10月第10期V01.30No.102009 肺结节检测中特征提取方法研究 何中市1,梁琰1,黄学全2,王健2 1(重庆大学计算机学院,重庆400044) 2(第三军医大学西南医院放射科,重庆400038) E—mail:zshe@cqu.edu.ca 摘要:计算机辅助诊断(Computer—AidedDiagnosis,CAD)系统为肺癌的早期检测和诊断提供了有力的支持.本文对孤立性肺结节特征提取问题进行研究.通过对肺结节和肺内各组织在序列CT图像上的医学征象分析和研究对比,结合专家提供的知识,提出了肺结节特征提取总体方案.该方案分别从肺部CT图像的灰度特征、肺结节形态、纹理、空间上下文特征等几个方面,对关键的医学征象进行图像分析,从而实现对ROI(RegionsofInterest)区域的特征提取和量化;提出特征提取的评价方案,实验结果表明,本文提取的特征提取方案是有效的.利用本文提取的特征,肺结节检测正确率达到93.05%,敏感率为94.53%. 关键词:孤立性;肺结节;特征提取;CT图像;特征评价 中图分类号:TP391文献标识码:A文章编号:1000—1220(2009)10—2073-05 ResearchontheFeatureExtractionApproachforSPNsDetection 腼Zhong—shil,LIANGYanl,HUANGXue—quan2,WANGJian2 1(CollegeofComputerScience,c‰增幻增Univers毋,Chongqing400044,China) 2(DepartmentofRadiology,Southwest丑却池z,ThirdMilitaryMedwalUniversityofChinesePL4,Chongqing400038,China) Abstract:Imageprocessingtechniqueshaveprovedtobeeffectiveforimprovementofradiologists7diagnosisofpubmonarynodules.Inthispaper,wepresentastrategybasedonfeatureextractiontechniqueaimedatSolitaryPulmonaryNodules(SPN)detection.Infeatureextractionscheme,36featureswereobtained,contained3greylevelfeatures,16morphologicalfeatures,10texturefeaturesand7spatialcontextfeatures.Andtheclassifier(SVM)runningwiththeextractedfeaturesachievescomparativeresults,withare-suitof93.05%innoduledetectionaccuracyand94.53%insensitivity. Keywords:isolated;solitarypulmonarynodules;featureextraction;CTimages;featureassessment 1引言 近几年,随着影像检查技术的改进,临床结果初步证明CT扫描是检测早期无症状肺癌最有效的影像学方法。1J.肺部疾病在CT影像上通常表现为孤立性肺结节(SolitaryPul—monaryNodules,SPNs),因此,对孤立性肺结节的检测和识别是对肺部疾病诊断最重要的途径.计算机辅助诊断系统一方面,大大减轻了医生的工作量,提高了工作效率;另一方面,使影像诊断更加客观化,提高诊断的效率和正确效率.因此,用计算机进行肺结节辅助诊断,提取肺结节特征,检测肺结节,是具有十分重要的意义和研究价值的. 在孤立性肺结节自动识别中,肺结节的特征提取及表示是其关键问题之一,它是进行识别的重要手段.关于肺结节检测方法有很多。2…,但对肺结节医学征象描述并不充分.目前一般常用面积、周长等形态方面进行肺结节特征提取.对肺结节的形态、全局、局部上下文特征以及病理征象的分析不足,使得特征提取描述不到位,影响识别准备率.同时也欠缺对识别结果的解释.正因为对提取的特征与肺结节医学征象问的对应关系分析不足,无法对识别结果进行医学知识上的解释, 特征提取特征评价 懂歪母 I里斗1显查鲎堑卜_倒1J躺l 帽霭瓣||描述程度l 1絮嚣卜 lJs、,M识 --|别性能 图1SPNs诊断框架图 Fig.1OverviewofSPNsdetection 而只有”是”或”否”的识别结果,无法给医生提供更多的信息.本文围绕以上几个问题,意在提供全面的、系统的量化信息,便于医学专家诊断的客观化、效率化.本文对孤立性肺结节特征提取问题进行研究.通过对肺结节和肺内各组织在序列CT图像上的医学征象分析和研究对比,提出了肺结节特征提取总体方案.该方案分别从肺部CT图像的灰度特征、形 收稿日期:2008-08-30基金项目:重庆市重大科技专项项目(CSTC,2008AB5038)资助;重庆市自然科学基金项目(CSTC,2007BB2134))资助.作者简介:何中市,男,1965年生,博士,教授,研究方向为人工智能、机器学习与数据挖掘等;梁琰,女,1982年生,博士研究生,图像处理、模式识别;黄学金,男,1966年生,博士,副教授,研究方向为影像诊断和介入放射学;王健,男,1964年生,博士,教授,研究方向为影像诊断和介入放射学.

数据标准化.归一化处理

数据的标准化 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”

和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。 一、Min-max 标准化 min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公式为: 新数据=(原数据-极小值)/(极大值-极小值) 二、z-score 标准化 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。 新数据=(原数据-均值)/标准差 spss默认的标准化方法就是z-score标准化。用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。步骤如下: 求出各变量(指标)的算术平均值(数学期望)xi和标准差si ; .进行标准化处理:zij=(xij-xi)/si,其中:zij为标准化后的变量值;xij为实际变量值。 将逆指标前的正负号对调。标准化后的变量值围绕0上下波动,

图像特征提取方法

图像特征提取方法 摘要 特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 至今为止特征没有万能和精确的图像特征定义。特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中“有趣”的部分,它是许多计算机图像分析算法的起点。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取最重要的一个特性是“可重复性”:同一场景的不同图像所提取的特征应该是相同的。 特征提取是图象处理中的一个初级运算,也就是说它是对一个图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。假如它是一个更大的算法的一部分,那么这个算法一般只检查图像的特征区域。作为特征提取的一个前提运算,输入图像一般通过高斯模糊核在尺度空间中被平滑。此后通过局部导数运算来计算图像的一个或多个特征。 常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。当光差图像时,常 常看到的是连续的纹理与灰度级相似的区域,他们相结合形成物体。但如果物体的尺寸很小 或者对比度不高,通常要采用较高的分辨率观察:如果物体的尺寸很大或对比度很强,只需 要降低分辨率。如果物体尺寸有大有小,或对比有强有弱的情况下同事存在,这时提取图像 的特征对进行图像研究有优势。 常用的特征提取方法有:Fourier变换法、窗口Fourier变换(Gabor)、小波变换法、最 小二乘法、边界方向直方图法、基于Tamura纹理特征的纹理特征提取等。

设计内容 课程设计的内容与要求(包括原始数据、技术参数、条件、设计要求等):一、课程设计的内容 本设计采用边界方向直方图法、基于PCA的图像数据特征提取、基于Tamura纹理特征的纹理特征提取、颜色直方图提取颜色特征等等四种方法设计。 (1)边界方向直方图法 由于单一特征不足以准确地描述图像特征,提出了一种结合颜色特征和边界方向特征的图像检索方法.针对传统颜色直方图中图像对所有像素具有相同重要性的问题进行了改进,提出了像素加权的改进颜色直方图方法;然后采用非分割图像的边界方向直方图方法提取图像的形状特征,该方法相对分割方法具有简单、有效等特点,并对图像的缩放、旋转以及视角具有不变性.为进一步提高图像检索的质量引入相关反馈机制,动态调整两幅图像相似度中颜色特征和方向特征的权值系数,并给出了相应的权值调整算法.实验结果表明,上述方法明显地优于其它方法.小波理论和几个其他课题相关。所有小波变换可以视为时域频域的形式,所以和调和分析相关。所有实际有用的离散小波变换使用包含有限脉冲响应滤波器的滤波器段(filterbank)。构成CWT的小波受海森堡的测不准原理制约,或者说,离散小波基可以在测不准原理的其他形式的上下文中考虑。 通过边缘检测,把图像分为边缘区域和非边缘区域,然后在边缘区域内进行边缘定位.根据局部区域内边缘的直线特性,求得小邻域内直线段的高精度位置;再根据边缘区域内边缘的全局直线特性,用线段的中点来拟合整个直线边缘,得到亚像素精度的图像边缘.在拟合的过程中,根据直线段转角的变化剔除了噪声点,提高了定位精度.并且,根据角度和距离区分出不同直线和它们的交点,给出了图像精确的矢量化结果 图像的边界是指其周围像素灰度有阶跃变化或屋顶变化的那些像素的集合,边界广泛的存在于物体和背 景之间、物体和物体之间,它是图像分割所依赖的重要特征.边界方向直方图具有尺度不变性,能够比较好的 描述图像的大体形状.边界直方图一般是通过边界算子提取边界,得到边界信息后,需要表征这些图像的边 界,对于每一个边界点,根据图像中该点的梯度方向计算出该边界点处法向量的方向角,将空间量化为M级, 计算每个边界点处法向量的方向角落在M级中的频率,这样便得到了边界方向直方图. 图像中像素的梯度向量可以表示为[ ( ,),),( ,),)] ,其中Gx( ,),),G ( ,),)可以用下面的

归一化

归一化方法(Normalization Method) 1.把数变为(0,1)之间的小数 主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。 2.把有量纲表达式变为无量纲表达式 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。比如,复数阻抗可以归一化书写:Z = R + jωL = R(1 + jωL/R) ,复数部分变成了纯数量了,没有量纲。另外,微波之中也就是电路分析、信号系统、电磁波传输等,有很多运算都可以如此处理,既保证了运算的便捷,又能凸现出物理量的本质含义。 标准化方法(Normalization Method) 归一化是为了加快训练网络的收敛性,可以不进行归一化处理 归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的,归一化是同一在0-1之间的统计概率分布; 当所有样本的输入信号都为正值时,与第一隐含层神经元相

连的权值只能同时增加或减小,从而导致学习速度很慢。为了避免出现这种情况,加快网络学习速度,可以对输入信号进行归一化,使得所有样本的输入信号其均值接近于0或与其均方差相比很小。 归一化是因为sigmoid函数的取值是0到1之间的,网络最后一个节点的输出也是如此,所以经常要对样本的输出归一化处理。所以这样做分类的问题时用[0.9 0.1 0.1]就要比用[1 0 0]要好。 但是归一化处理并不总是合适的,根据输出值的分布情况,标准化等其它统计变换方法有时可能更好。 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 目的是为了: 1.避免具有不同物理意义和量纲的输入变量不能平等使用 2.bp中常采用sigmoid函数作为转移函数,归一化能够防止净输入绝对值过大引起的神经元输出饱和现象。 3.保证输出数据中数值小的不被吞食。 归一化有同一、统一和合一的意思。无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的,归一化是同一在0-1之间的统计概率分布;SVM是以降维后线性划分距离来分类和仿真的,因此时空降维归一化是统一在

数据归一化方法大全

数据归一化方法大全 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。 一、m ax Min标准化 - M i n标准化方法是对原始数据进行线性变换。设minA和maxA分别- m a x 为属性A的最小值和最大值,将A的一个原始值x通过m ax Min标准化映射 - 成在区间[0,1]中的值'x,其公式为: 新数据=(原数据-极小值)/(极大值-极小值) 二、z-score 标准化 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。 z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。 新数据=(原数据-均值)/标准差 spss默认的标准化方法就是z-score标准化。 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。 步骤如下: 1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ; 2.进行标准化处理: zij=(xij-xi)/si 其中:zij为标准化后的变量值;xij为实际变量值。 3.将逆指标前的正负号对调。 标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

重力勘探期末重点知识重点整理

第二章 1.重力值测定方法分类: [1]根据测量的物理量不同分为: 1)动力法:观察物体在重力作用下的运动状态。如运动的时间和路径;自由落体的速度;自由摆振动周期。以测定重力的绝对值。 2)静力法:测量物体在重力作用下的相对平衡状态。以测定两点间的相对重力值。 [2]根据测量结果的不同,可分为: 1)绝对重力测定:测量地球上某点的绝对重力值,绝对重力测量的是重力的全值——绝对重力仪 2)相对重力测定:测量地球上某两点间的重力差值(即各点相对某一基准点的重力差)——相对重力仪 2.绝对重力仪 依据自由落体定律,分为自由下落法和上抛法。 3.相对重力仪 [1]分类 1)从构造上:平移式和旋转式; 2)从制作材料及工作原理上:石英弹簧重力仪、金属弹簧重力仪、振弦重力仪以及超导重力仪; 3)应用领域:地面重力仪,海洋重力仪以及井中重力仪 [2]弹簧类型:S0是弹簧的原始长度。S0>0(正长弹簧),S0<0(负长弹簧),S0=0(零长弹簧) [3]零点漂移:弹性重力仪中的弹性元件,在一个力的长期作用下将会产生蠕变和弹性滞后效应(弹性疲劳)等现象 零点漂移现象不可能完全消除。 改正方法:仪器制造时,选用适当材料,使零点漂移量小,且尽量随时间线性变化。 4.厄缶效应:因载体相对于地球的运动,使作用在重力仪上的离心力变化而改变了重力的大小,这种影响称厄缶效应 5.重力仪性能指标:观测精度,读数精度,测程范围,格值(全球范围)、零点漂移,分辨率、 第三章重力测量 1.重力勘探工作的主要阶段(简答): (1)设计:根据地质任务进行现场踏勘、编写技术设计 (2)施工:根据设计进行外业测量,采集各种有关数据 (3)处理解释:对实测数据进行整理、处理、解释、成图和编写报告 2.按照测量所处空间位置的不同,重力测量可以分为:地面重力测量、地下(坑道、井中)重力测量、海洋重力测

广西百色盆地重磁力结合遥感资料

广西百色盆地重磁力结合遥感资料 在盆地早期评价中的综合研究 王 京 谢青云 方 杰 丁树柏 (石油勘探院遥感所,北京 100083) 摘 要 本文以百色盆地为例,着重阐述了重磁资料在盆地早期评价中所起的重要作用,提出并 总结了重磁资料在盆地早期评价系统中与遥感等资料综合研究的方法系列,指出重磁处理系统是 盆地早期评价系统中不可分割的重要部分,遥感图像处理、石油重磁处理系统和地理信息系统 (GI S)是进行多元信息综合的强有力的工具。 关键词 盆地早期评价,G IS,多元信息综合。 0 引言 盆地早期评价的目的就是以盆地、坳陷、凹陷为对象,以地面地质、重力、磁力、电法、化探、遥感所获得的各项参数为依据,石油地质理论为指导,计算机技术为手段,利用各种参数描述盆地的地层、构造、沉积、生储盖组合等各种地质特征,选出油气勘探最优区带和局部构造。目前,全国大多数中新生代中小型盆地重磁资料较为齐备,为地震前期勘探、盆地分析和油气资源早期评价工作的开展奠定了基础。中国众多的中小型盆地具有很大的油气潜力,因此对这些盆地进行早期评价具有重要的意义。可以达到为地震勘探或钻井井位的布置提供科学依据,降低风险,节约资金,加快发现油气田的目的。我们对百色盆地开展了这方面的研究工作,其动态评价模式及结论对其它类似的含油气盆地具有指导意义。 本文以百色盆地为例谈一谈重磁法在盆地早期评价中发挥的作用,以及重磁资料如何与遥感资料结合达到盆地早期评价目的。 1 盆地早期评价重磁资料解释流程 盆地早期评价重磁资料解释流程与一般石油重磁解释流程大致相同。主要包括重磁原始数据建库(与化探、遥感等资料一起配准)、异常的转换和分离、区域地质重磁资料解释、局部构造和油气藏标志解释、有利含油气区块评价等内容。重点放在物化探遥感综合解释和含油气有利区块评价上。整个过程可用下列流程框图表示(图1)。 百色盆地属第三系断陷盆地,是我国南方富含油气的一个小型盆地,非地震物探工作始于1959年,曾做过1 5万全盆地重力、1 5万地面磁法和部分的高精度重力详查。我们依据的原始资料主要有布格重力异常图,全盆地磁异常图数字化仪输入石油重磁微机处理解释系统(PGM )(石油物探局编)。从方法上分为常规处理和特殊处理、平面处理和剖面处理两方面。常规处理提供早期评价中所需要的基础资料,包括布格重力异常图、剩余重力异常图、垂直二次导数图、水平总梯度图、适当高度的延拓图和主要密度界面深度图、油气勘探主要目的层 1995年11月13日收稿。 第21卷第1期 物 探 与 化 探V ol.21,No.11997年2月GEOPHYSICA L &GEOCHEM ICA L EXPL ORAT I ON F eb.,1997

相关主题