搜档网
当前位置:搜档网 › 王静龙《非参数统计分析》教案

王静龙《非参数统计分析》教案

王静龙《非参数统计分析》教案
王静龙《非参数统计分析》教案

.引言

一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。 例如:分析下面的供应商的产品是否合格?

合格产品的标准长度为(±),随即抽取n=100件零件,数据如下:

经计算,平均长度为cm x 4958.8=,非常接近中心位置,样本标准差为

()

1047.011

2

=--=

∑=n

i i

n x x s cm.一般产品的质量服从正态分布,),(~2δμN X 。

这说明产品有接近三分之一不合格,三分之二合格,所以需要更换供应厂 商,而用非参数分析却是另外一个结果。 以下是100个零件长度的分布表:

这说明有90%的零件长度在)2.05.8(±cm 之间,有9%的零件不合格,所以工厂不需要换供应商。

例2 哪一个企业职工的工资高? 表两个企业职工的工资

显然,企业1职工的工资高,倘若假设企业1与企业2的职工工资分别服从正态分布),(),,(22σσb N a N ,则这两个企业职工的工资比较问题就可以转化为一个参数的假设检验问题,原假设为b a H =:0,备择假设为b a H >:0 则 ))11(,(~2σn

m b a N y x +-- 若0H 为真,则

其中])()([211

212

2∑∑==-+--+=

n

i i m i i w

y y x x n m S 拒绝域为:}325.1{)}20({90.0≥=≥t t t 检测值为:282.1=t

故不能拒绝原假设,认为两企业的工资水平无差异。 也可以用值-P 检验

由于1073.0)282.1)20((=≥t P

故不能拒绝原假设,认为两企业的工资水平无差异。

这里我们采用的显着性水平为.

但这个统计结论与实际数据不相符合。主要是因为假设工资服从正态分布,这个假设是错误的,用错误的假设结合参数分析自然得出的结论不可靠。这时候有两种方法处理,一种更换其他分布的假设,二是用非参数数据的方法的分析。非参数统计如同光谱抗生素,应用范围十分广泛。

参数统计与非参数统计针对不同的情况提出的统计方法,它们各有优缺点,互为补充。

第二章描述性统计

§表格法和图形法

表格法主要有列频数分布表和频率分布表

例某公司测试新灯丝的寿命,列表如下:

(1)找到最小值43,最大值116;

(2)将组数分为5~20组,最小值)

,分16组,组距为5

(最大值

组距-

表灯丝寿命的频率分布表

对应的直方图为:

§表格法和图形法

数值方法主要是用数值来表示数据的中心位置(或者平均大小)和离散程度等。

列1

平均

标准误差

中位数 3

众数 3

标准差

方差

峰度

偏度

区域 4

最小值 1

最大值 5

求和34

观测数12

它的平均数,中位数,众数差不多大。但大部分情况不是这样的,例如:

§表某保险公司赔款样本数据频率分布表

左峰的时候:众数≤中位数≤平均数,

右峰的时候:平均数≤中位数≤众数。

平均数容易受到异常值的影响,故不能很好地代表中心位。

例如某地农户收入增长了%,但减收的农户却是60%,为了更好地反映中心位,所以很多情α的切尾平均数。人们熟知的去掉最大值与最小值的平均数也是切尾平均数。

况采用%

§经济专业毕业生的月收入数据

为1940.但中位数都一样,均为1905,中位数表现了稳定性。因此我们不仅用平均数表示中心位置,有时候也用中位数描述数据的中心位置。

另外,众数也能用来描述数据的中心位置,尤其是定性数据的中心位置,例如:§有缺陷的小巧克力不合格品问题的频数频率分布表

这种情况下计算平均数和中位数没有多大意义,相反众数为1,众数值得关注。一般情况,平均数,中位数,众数应该综合考量,这三个数目,使得我们可以从不同角度表达数据的中心位置,给评估对象一个全面的评价,例如:某企业的职工收入的平均数为5700,元,中位数为3000元,众数为2000元,这说明收入2000元的人最多,有一半职工低于3000元,有一半职工高于3000元,平均数5700大于中位数,说明有些员工工资特别高。

平均数与中位数为何可以表示数据的中心位置呢?主要是因为:

2

1

2

1

)

(min )

(∑∑==-=-n

i i a

n

i i

a x x x ()

∑∑==-=-n

i i

a

n

i i a x me x 1

1

min ()

这说明用不同的距离标准衡量,平均数与中位数到各点的距离最近。 另外平均数的物理意义还有重心的意义,在重心位置,系统可以平衡,在图处,平均数为4,中位数为3,就意味着把树木集中在3这点,所走的路最短。

* *

* *

* * * * * * * 1 2 3 4 5 6 7 8 9 中位数 平均数

§ 表示离散程度的数值

表示离散程度的数值一般有方差,四分位数,而四分位数又分上四分位数与下四分位数。

为表示数据的离散程度,我们一般用五个数概括,即最小值,下四分位数,中位数,上四分位数,最大值,分别记为.,,,,43210Q Q Q Q Q

例如:将12名经济专业毕业生月收入数据处理结果如下:(用Minitab )

用统计软件Minitab画箱线图(见图)

四分位数的计算

分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值.如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是八分位数等.四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部

分包括25%的数据,处在各分位点的数值就是四分位数.四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四

分位数称为上四分位数,分别用Q1、Q2、Q3表示.四分位数作为分位数的一种形式,在统计中有着十分重要的作用和意义,现就四分位数的计算做一详细阐述.

一、资料未分组四分位数计算

第一步:确定四分位数的位置.Qi 所在的位置=i(n+1)/4,其中i=1,2,表示资料项数.

第二步:根据第一步四分位数的位置,计算相应四分位数.

例1:某数学补习小组11人年龄(岁)为:17,19,22,24,25,

28,34,35,36,37,38.则三个四分位数的位置分别为:

Q1所在的位置=(11+1)/4=3,Q2所在的位置=2(11+1)/4=6,Q3所在的位置=3(11+1)/4=9.

变量中的第三个、第六个和第九个人的岁数分别为下四分位数、中位数和上四分位数,即:

Q1=22(岁)、Q2=28(岁)、Q3=36(岁)

我们不难发现,在上例中(n+1)恰好是4的整数倍,但在很多实际工作中不一定都是整数倍.这样四分位数的位置就带有小数,需要进一步研究.带有小数的位置与位置前后

标志值有一定的关系:四分位数是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置的远近,距离越近,权数越大,距离越远,权数越小,权

数之和应等于1.

例2:设有一组经过排序的数据为12,15,17,19,20,23,25,

28,30,33,34,35,36,37,则三个四分位数的位置分别为:

Q1所在的位置=(14+1)/4=,Q2所在的位置=2(14+1)/4=,Q3所在的位置=3(14+1)/4=.

变量中的第项、第项和第项分别为下四分位数、中位数和上四分位数,即:

Q1=×第三项+×第四项=×17+×19=;

Q2=×第七项+×第八项=×25+×28=; Q3=×第十一项+×第十二项=×34+×35=.

二、资料已整理分组的组距式数列四分位数计算

第一步:向上或向下累计次数(因篇幅限制,以下均采取向上累计次数方式计算); 第二步:根据累计次数确定四分位数的位置:

Q1的位置 = (∑f+1)/4,Q2的位置 = 2(∑f +1)/4,Q3的位置 = 3(∑f +1)/4 式中:∑f 表示资料的总次数;

第三步:根据四分位数的位置计算各四分位数(向上累计次数,按照下限公式计算四分位数): Qi=Li+fi ×di 式中:Li ——Qi 所在组的下限,fi ——Qi 所在组的次数,di ——Qi 所在组的组距;Qi-1——Qi 所在组以前一组的累积次数,∑f ——总次数. 例3:某企业工人日产量的分组资料如下: 根据上述资料确定四分位数步骤如下: (1)向上累计方式获得四分位数位置: Q1的位置=(∑f +1)/4=(164+1)/4= Q2的位置=2(∑f +1)/4=2(164+1)/4= Q3的位置=3(∑f +1)/4=3(164+1)/4=

(2)可知Q1,Q2,Q3分别位于向上累计工人数的第三组、第四组和第五组,日产量四分位数具体为:

Q1=L1+■×d1=70+■×10=(千克) Q2=L2+■×d2=80+■×10=(千克) Q3=L3+■×d3=90+■×10=(千克) shitouwa4320 2014-10-23

§ 标准误

假设产生数据的总体的均值为μ,方差为2σ。它们的估计分别为样本平均值x , 样本方差2S 和样本标准差S ,由于平均数x 的标准差为n σ,所以它的估计取

为n S

,n S

称为标准误。

由)1,0(~N n x σμ-得)1(~--n t n S x μ

在显着性水平的条件下,得置信区间的端点 即得 )1(975.0-±

=n t n

S

x μ. 用Mintab 计算得到:

Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum

C1 12 0

算得到所求置信区间为:

用Excel 计算得到:

平均 1940

标准误差 中位数 1905 众数 1880

标准差 方差 峰度 偏度 区域 640 最小值 1700 最大值 2340 求和 23280 观测数 12 置信度%)

所求置信区间为:

两款软件计算结果相差不大。 § 偏度

偏度(Skewness )反应单峰分布的对诚性,总体偏度用s β表示 样本偏见度用s b 表示,国家标准的计算公式为: 其中().3,2,

1

=-=

=j n

x x m n

i j

i

j

在Excel 中的计算公式为:

一般0>s b 数据的分布是右偏的,0

峰度(Kurtosis )反映峰的尖峭程度,总体峰度用k β表示,总体的峰度的定义为(国家标准)

样本峰度用k b ,国家标准的计算公式为 由于正态分布的峰度系数为3,当 3>k b 时为尖峰分布,当 3

平分布。

第三章 符号检验法

符号检验是一种较为简单的非参数检验,中位数检验是符号检验的一个重要应用。

例 某市劳动和社会保障部门的资料说明,1998年高级技师的年收入的中位数为21700元,该市某个行业有一个由50名高级技师组成的样本,数据如下: 23072 24370 20327 24296 22256 19140 25669 22404 26744 26744 23406 20439 24890 24815 24556 18472 24514 22516 25112 23480 26552 24074 18064 22590 ΛΛΛΛΛ 原假设与备择假设为:

选择统计量 },,2,1,0:{0

#

n i me x x S i i Λ=>-=+,+S 即为大于中位数0me 的 i x 的个数,"#"表示计数,+S 也可表示为:

若21700:

0=me H 为真,则)2

1

,50(~b S

+

而,50=n 检测值32=+

S

计算P 值05.0032454.02150)32(50

50

32<=??

? ?????? ??=≥∑=i i X P 即检测值32=+

S 落入拒绝域。

故拒绝原假设,接受备择假设2170:1>me H

在excel 中如何使用BINOMDIST 函数返回一元二项式分布的概率值

BINOMDIST函数用于返回一元二项式分布的概率值。

函数语法

语法形式BINOMDIST(number_s,trials,probability_s,cumulative)

number_s:表示实验成功的次救。trials:表示独立实验的次数。

probability_s:表示一次实验中成功的概率。

cumulative:表示一逻辑值,决定函数的形式,如果cumulative为TRUE,函数BINOMDIST返回积累分布函数,即至多number_s次成功的概率;如果为FALSE,返回概率密度函数,即number_s次成功的概率。

例如,抛硬币正反面的概率是若要计算出抛10次硬币6次是正面的概率。可以使用BINOMDIST函数来实现。

Step01选中C4单元格,在公式编辑栏中输入公式: =BINOMDIST(A2,,TRUE)

按Enter键即可计算出积累分布函数,即至多6次成功概率,如图8-73所示。

按Enter键即可计算出概率密度函数,即6次成功的概率,如图8-74所示。

§ 符号检验在定性数据分析中的应用

有的时候,观察值是一些定性数据,如果定性数据仅取两个值,就可以使用符号检验对它进行统计分析。

例 某项调查询问了2000名年轻人。问题是:你认为我们的生活环境是比过去更好,更差,还是没有变化?有800人觉得”越来越好”,有720人感觉一天不如一天,有400人表示没有变化,还有80人说不知道,根据调查结果,你是否相信,在总体认为我们的生活比过去更好的人,比认为我们的生活比过去差的人多?

解:原假设与备择假设为

选择统计量 }{#

认为生活变好的人数=+S ,+S 也可表示为:

则)

2

1

,1520(~b S +

由于n 很大,所以可以近似认为

)380,760(~N S + 其中380,760====npq np σμ

利用正态分布的计算结果

(

)(

)

022714571.0380799760799800=???

?

?-Φ≈>=≥+

+

S P S P

修正后

由于P 值较小,所以我们认为我们的生活环境变好了。 § 成对数据的比较问题

由于同一块田的生长环境相同,不同的地生长环境各不相同,所以将这批数据写成成对的形式。 i i i 2121,εεδααθ

-=-=,θ为品种差,i δ为随机差。

i δ关于原点对称的分布。

由于i i 21εε和都服从关于原点对称的分布,i i i i 1221εεεε-=-(同分布) 则

所以i δ关于原点对称。 其它分位点的检验

茆诗松老师教材P414,例以往的资料表明,某种圆钢的90%的产品的硬度不小于103(2

/mm kg ),为了检验这个结论是否属实,现在随机挑选20根圆钢进行硬度实验,测得其硬度分别是:

问这批钢材是否达标? 解:原假设与备择假设为: 选取统计量∑=+

=

n

i i

u

S 1

,若原假设成立,则)09,20(~b S +

检测值15=+

S ,检验的P 值为

即检测值落入拒绝域,故拒绝原假设,接受备择假设103:10.01

即产品不达标。

例 工厂有两个化验室,每天同时从工厂的冷却水中取样,测量水中的含氯量(6

10-)一次,记录如下:

问两个化验室测定的结果之间有无显着性差异?

解:设A,B 实验室的测量误差分别为:.,ηξ并设.,ηξ的分布函数分别为

)(),(x G x F 。

由于 .,i i i i i i y x ημξμ+=+=

选取统计量

i i i i i y x z ηξ-=-=

原假设与备择假设为:

若0H 为真,则在Z 的分布关于原点对称 选取统计量∑=+

=

11

1

i i

u

S

即+

S 表示1121,,,z z z Λ中正数的个数。

检验值

2=+S ,检验的P 值为:

在显着性水平为05.0=α,检测值未落入拒绝域,故接受原假设,认为两个化

验室的检测结果之间无显着性差异。

已知2007年索赔数额的中位数为5063元,问2008年索赔的中位数较上一年是否有所变化?

解:这是一个双侧检验问题: 原假设与备择假设为:

选取统计量

∑=+=n

i i u S 1 显着性水平15,05.0==n α。

计算得:

所以双侧拒绝域为:

}123{≥≤=+

+S S W 或 而检测值12=+

S ,落入拒绝域W .

故拒绝原假设,接受备择假设,即可以认为2008年索赔的中位数较上一年有所变化。

方法二:也可采用P 值检验

检验的P 值为:

05.00352.0)12(2=<=≥=+

αS P p 故检测值落入拒绝域,所以拒绝原假设,接受备择假设,即可以认为2008年索赔的中位数较上一年有所变化。

而当年中国的该项指标为20万度/年。请用符号检验方法检验:这22个国家每平方公里可开发的水资源的中位数不高于中国,求检验的P 值,并写出结论。 解:原假设与备择假设为: 选取统计量∑=+

=22

1

i i

u

S ,若原假设成立,则)5.0,22(~b S +

显着性水平22,05.0==n α

,查表得:

右侧拒绝域为:}16{≥=+

S W

又检测值W S ?=+

8

或者检测的P 值为

05.09331.0)8(=>=≥=+

αS P p 故接受0H ,拒绝1H 。

即可认为这22个国家可开发的水资源的中位数不高于中国。

日本 以色列 韩国 斯里兰卡 中国 叙利亚 伊朗 印度 孟加拉 巴基斯坦 4 6 9 15 23 31 36 65 77 88 以M 表示1996年1000个新生儿中死亡数的中位数,试检验:

34:34:10<≥M H M H ,求检验的P 值,并写完出结论。

解:原假设与备择假设为: 选取统计量∑=+

=10

1

i i

u

S ,若原假设成立,则)5.0,10(~b S +

显着性水平10,05.0==n α

,查表得:

左侧拒绝域为:}2{≤=+

S W

又检测值W S ?=+

4

或者检测的P 值为

05.03770.0)4(=>=≤=+

αS P p 故接受0H ,拒绝1H 。

即可认为1996年1000个新生儿中死亡数的中位数不低于34。

问是否该厂所说的尼古丁含量比实际要少?求检验的P 值,并写出结论。 由于对于非正态总体,小样本场合不能用样本均值检验,所以下面采用中位数检验。

解:原假设与备择假设为: 选取统计量∑=+

=12

1

i i

u

S ,若原假设成立,则)5.0,12(~b S +

显着性水平12,05.0==n α

,查表得:

右侧拒绝域为:}10{≥=+

S W

又检测值W S

?=+

8

或者检测的P 值为05.01938.0)8(=>=≥=+αS P p

故接受0H ,拒绝1H 。

即可认为该厂的尼古丁含量比实际含量要少。

第四章 符号秩和检验法

§ 对称中心为原点的检验问题

设对称中心为θ,则原假设与备择假设分别为: 引入符号检验统计量为: 将n x x x ΛΛ,,21排序。设

i

x 的秩为.,,2,1,n i R i Λ= 引入符号秩和检验统计

量为:∑=+

=n

i i i R u W 1

表 10个观察值和它们的符号,绝对值和绝对值的秩

3=+S ,235++=+W

下面讨论符号秩和检验的检验方法,原假设与备择假设为: 如果0>θ

,则2

1

)()0(,21)()0(=<<<=>>>θθX P X P X P X P

对于任意的正数a ,

即0),()(>?-<>>a a X P a X P

此时+

W

较大,C 为检验的临界值为

原假设与备择假设为:

此时0),()(>?-<<>a a X P a X P 此时+

W 较小,d 为检验的临界值为 原假设与备择假设为:

我们在+W 较大或者较小的时候拒绝原假设,检验的临界值c ,d 为

§ 符号秩和检验统计量+

W 的性质

性质 令∑==n

i i iu S 1,则在总体的分布关于原点0对称时,+

W 与S 同分布:

表 10个观察值和它们的符号,绝对值和绝对值的秩

表 10个观察值和它们的符号,绝对值和绝对值的秩

105321

=++==∑=n

i i iu S ,∑=+

=n

i i i R u W 1

这样就初步说明了性质

+W 的概率分布,在总体X 关于原点0分布时,n u u u ,,,21Λ相互独立,同分布,

且.,,2,1,21

)1()0(n i u P u P i i Λ=====所以∑==n

i i iu S 1

是离散的分布,它的取值

范围是,2)1(,,2,1,0+n n Λ,且

,2)1(,,2,1,0,2)()()(1

+=====∑=n n d d t d iu P d S P n n n

i i Λ()

其中)(d t n 表示从.,,2,1n Λ中取若干个,其和恰好为d 的取法数, 例如:1)2()1()0(===n n n t t t 。2)4()3(==n n t t ,3)5(=n t ,.4)6(=n t 性质 在总体的分布关于原点0对称时,+

W 与S 同分布:所以+

W 的分布

11属性数据分析

技能训练十一属性数据分析 一、训练目的与要求 1.掌握属性数据分析方法。 2.掌握属性数据分析图表与原图形的组合。 二、训练准备 1.训练数据:本训练数据保存于文件夹Exercise-11中。 2.预备知识:属性分析的方法。 三、训练步骤与内容 1.数据准备 将训练数据复制,粘贴至各自文件夹内。 启动MAPGIS主程序。在主菜单界面中,点击参数按钮,在弹出的对话框中,设置工作目录最终指向Exercise-14(盘符依据各人具体情况设置)。 2.属性分析 执行如下命令:空间分析?空间分析?文件?装载区文件,加载要进行属性分析的数据文件。 Step1: 加载数据文件中所提供 的REGION.WP区文件 执行如下命令:属性分析?单属性分类统计?立体饼图,选择属性分析类型。

Step2: 属性 Step3: 选择分类属性字段为小麦,保留属性字段为乡名、水稻、玉米Step4: 设置分类方式为分段方式 Step5: 确定,退出设置 分类值域按图中所示输 入

分类统计结果图 3.保存文件 执行如下命令:文件?保存当前文件,换名保存属性分析所生成的图形文件,系统生成的表格文件(*.WB)不需要保存。 Step: 将缺省文件名改为“属性分析”,点 击保存按钮。按此方法依次将线、区 文件名均改为“属性分析” 4.文件组合 执行如下命令:图形处理?输入编辑?打开已有工程文件,打开所提供的Exercise-14.MPJ,在工程文件管理窗口,点击鼠标右键,选择“添加项目”选项,将前面生成的属性分析.WT、属性分析.WL、属性分析.WP添加进此工程文件。 关闭REGION.WP、POINT.WT、RIVER.WL和LINE.WL四个文件。 执行如下命令:其它?整块移动,调整属性分析.WT、属性分析.WL、属性分析.WP三个图形文件的位置,使与主图位置相适应。若此三个图形与主图相比过大的话,执行如下命令:其它?整图变换?键盘输入参数,来进行调整(注意应确定REGION.WP、POINT.WT、RIVER.WL 和LINE.WL四个文件处于关闭状态)。

LFA457数据分析向导资料

LFA447数据分析向导 1.新建/打开数据库 打开分析软件Proteus LFA Analysis。弹出如下界面: 如果要把导入数据保存在原有的数据库中,选择数据库所在的文件夹,双击打开该数据库。 如果要为导入数据新建一个数据库,选择存盘路径,在“文件名”中输入数据库文件名,点击“打开”,软件会自动创建一个新的数据库文件。 随后出现数据库管理窗口:

注:LFA Proteus的数据以Access数据库文件(*.mdb)的形式进行管理。LFA447(Nanoflash)的原始数据文件(*.dat)需要导入到数据库文件中,一个数据库文件可存放多个测量数据。从数据分类管理的角度出发,一般建议为每一批样品单独创建一个数据库。 2.导入LFA447数据文件/设定材料属性 点击“LFA数据库”窗口的“数据库”菜单下的“导入LFA447文件”,弹出“选择导入文件”对话 框:

选择所要导入的数据文件,点击“打开”,弹出“导入–材料选择”对话框: 如果在数据库中原已有该材料的信息,只需在材料列表中“选择已有材料”即可;如果是新建的数据库或原数据库中没有该材料的信息,则“定义新材料”,点击“下一步”,弹出“材料定义”对话框: LFA Proteus中每一个测试数据都有相应的材料属性定义,包含样品的名称、密度、比热表、热膨胀系数表、热扩散系数表等信息,其中比热、热膨胀与热扩散系数三个表格可通过点击“对应表”按钮进行设定。对于单层样品: 如果仅仅是热扩散系数测试,三个表都不需链接,直接点击“完成”。 如果除热扩散测试外还同时使用比较法计算比热,则此时先可点击“完成”,待比热计算完成后使用“导出比热表”的方法重新对材料属性中所链接的比热表进行设定。(详见LFA比热与导热系数计算方法) 如果已有比热的文献值(或使用其它仪器得到的测量值),需要链接到材料属性中,以便结合热扩散测试结果进一步计算导热系数,则在“比热表”的选项卡中点击“对应表…”,弹出如下窗

高惠璇多元统计分析习题答案

第四章 4-1 设 ?????++=+-=+=,2,2,332211εεεb a y b a y a y ).,0(~32 3321I N σεεεε?? ?? ??????= (1)试求参数b a ,的最小二乘估计; (2)试导出检验b a H =:0的似然比统计量,并指出当假设成立时,这个统计量是分布是什么? 解:(1)由题意可知 .,,,211201321 321??? ? ??????=??????=??????????=??????????-=εεεεβ b a y y y Y C 则 ??????????????????? ?-?????? ????????????-??????????-==--321' 1 ''1'211201************)(?y y y Y C C C β .??)2(51)2(6132321??????=???? ? ?????+-++b a y y y y y (2)由题意知,检验b a H =:0的似然比统计量为 2 3 2 2 ? ??? ? ??=σσλ 其中,])?2?()??2()?[(3 1?23 22212 b a y b a y a y --++-+-= σ 。 当0H 成立时,设0a b a ==,则 ?????+=+=+=,3,,303202101εεεa y a y a y ,311???? ? ?????=C 可得

,?)3y (111311311311)(?0321321' 1 ''1'a y y y y y Y C C C =++=??? ? ? ????????? ? ?????????? ? ??????????????????????==--β ],)?3()?()?[(3 1?20320220120a y a y a y -+-+-=σ 因此,当假设0H 成立时,与似然比统计量λ等价的F 统计量及其分布为 ).1,1(~???2202 F F σσ σ -= 4-3 设Y 与321,,x x x 有相关关系,其8组观测数据见表4.5. 表 4.5 观测数据 序号 1x 2x 3x Y 1 38 47.5 23 66.0 2 41 21. 3 17 43.0 3 3 4 36. 5 21 36.0 4 35 18.0 14 23.0 5 31 29.5 11 27.0 6 34 14.2 9 14.0 7 29 21.0 4 12.0 8 32 10.0 8 7.6 (1)设εββββ++++=3 322110x x x Y ,试求回归方程及决定系数2 R 和均方误差2 s 。 解:用sas 软件的编写程序如下: title ' "应用多元统计分析" p171 习题4-3'; data xt43;

数据属性

数据属性 数据具有数值属性、物理属性。在数据处理上数据又具有集合性、隶属性、稳定性、方便性、重复性、共同性、指向性以及运算规则及运算约束。我们先看一个命题,求一个苹果和一个梨的和?由于它们的物理属性不同,我们不能求出它们的和。再看命题现在有一个苹果和一个梨,问是否满足3个人,每人一个苹果或梨,由于物理属性转移到“人”概念下的“个”,所以必须先进行加法运算,其结果是分析命题的依据。数据是复杂的,它可以是任何介质上所记录的信息,比如我们可以对文字信息进行拷贝、连接、检索、删除,都是数据概念下的操作。 详细解释 进行各种统计、计算、科学研究或技术设计等所依据的数值。 柯岩《奇异的书简·船长》:“ 贝汉廷分析着各个不同的数据,寻找着规律,终于抓住了矛盾的牛鼻子。”数据(data)是载荷或记录信息的按一定规则排列组合的物理符号。可以是数字、文字、图像,也可以是计算机代码。对信息的接收始于对数据的接收,对信息的获取只能通过对数据背景的解读。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。亦即数据转化为信息,可以用公式“数据+背景=信息”表示。 编辑本段计算机科学中的解释 数据:在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。 在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。是组成地理信息系统的最基本要素,种类很多。 按性质分为 ①定位的,如各种坐标数据;②定性的,如表示事物属性的数据(居民地、河流、道路等);③定量的,反映事物数量特征的数据,如长度、面积、体积等几何量或重量、速度等物理量;④定时的,反映事物时间特性的数据,如年、月、日、时、分、秒等。 按表现形式分为

实验十四 属性数据分析

实验十四属性数据分析 一、实验目的 1.掌握属性数据分析方法。 2.掌握属性数据分析图表与原图形的组合。 二、实验准备 1.实验数据:本实验数据保存于文件夹Exercise-14中。 2.预备知识:属性分析的方法。 三、实验步骤与内容 1.数据准备 将实验数据复制,粘贴至各自文件夹内。 启动MAPGIS主程序。在主菜单界面中,点击参数按钮,在弹出的对话框中,设置工作目录最终指向Exercise-14(盘符依据各人具体情况设置)。 2.属性分析 执行如下命令:空间分析?空间分析?文件?装载区文件,加载要进行属性分析的数据文件。 Step1: 加载数据文件中所提供 的REGION.WP区文件执行如下命令:属性分析?单属性分类统计?立体饼图,选择属性分析类型。

Step2: 属性 Step4: 设置分类方 式为分段方 式 Step3: 选择分类属 性字段为小 麦,保留属 性字段为乡 名、水稻、 玉米 Step5: 确定,退出 设置 分类值域按图中所示输 入

分类统计结果图 3.保存文件 执行如下命令:文件?保存当前文件,换名保存属性分析所生成的图形文件,系统生成的表格文件(*.WB)不需要保存。 Step: 将缺省文件名改为“属性分析”,点 击保存按钮。按此方法依次将线、区 文件名均改为“属性分析” 4.文件组合 执行如下命令:图形处理?输入编辑?打开已有工程文件,打开所提供的Exercise-14.MPJ,在工程文件管理窗口,点击鼠标右键,选择“添加项目”选项,将前面生成的属性分析.WT、属性分析.WL、属性分析.WP添加进此工程文件。 关闭REGION.WP、POINT.WT、RIVER.WL和LINE.WL四个文件。 执行如下命令:其它?整块移动,调整属性分析.WT、属性分析.WL、属性分析.WP三个图形文件的位置,使与主图位置相适应。若此三个图形与主图相比过大的话,执行如下命令:其它?整图变换?键盘输入参数,来进行调整(注意应确定REGION.WP、POINT.WT、RIVER.WL和LINE.WL四个文件处于关闭状态)。 完成后,保存此工程文件。

GIS中的数据分析

二、GIS中的数据分析 第1节空间数据分析 地理信息系统(GIS)与—般的计算机辅助制图(CAM/CAD)系统的主要区别在于GIS具有空间数据的分析、变换能力。除一些基本的变换功能如数据更新、比例尺变换,投影变换外.主要的空间分析和变换功能为地理数据的拓扑和空间状况运算,属性综合运算,几何要素与属性的联合运算等。为了完成这些运算,GIS一般都以用户和系统交互的形式提供以上分析处理能力。应指出,栅格数据结构与矢量数据结构的空间分析方法有所不同。一般来说,栅格结构组织数据的空间分析方法要简单一些。 下图以分级结构形式概括的各种空间分析类型和方法:

图: GIS空间分析方法 一、综合属性数据分析 GIS中属性数据一般采用关系型数据库管理,因此,关系数据库中各种分析功能都可以对属性性数据进行分析。 (一)数学计算 属性数据中的数字型数据可以进行“加”、“减”、“乘”、“除”、“乘方”等数学运算,以产生新的属性值,如人口数/图斑面积(km)=人口密度。 (二)逻辑运算 逻辑运算的基本原理是布尔代数,这种逻辑分析几乎可以在所有

的空间分析中得到应用。它按属性数据的组合条件来检索其他属性项目或图形数据,以及进行空间聚类. (三)单变量分级分析 属性的单变量分级分析是把单个属性作为变量,依据布尔逻辑方法分成若干个类别。这种分析方法,可进行属性数据的合并式转换,把复杂的属性类别合并成简单的类别,以实现空间聚合 (四)多变量统计分析 多变量统计分析主要用于数据分类。在GIS中存储的数据具有原始的性质,以便用户可以根据不同的使用目的,进行任意提取和分析,特别是对于观测和取样数据.随着采用的分类和内插方法的不同,得到的结果有很大的差异, 因此,在大多数情况下, 首先是将大量未经分类的属性数据输入信息系统的数据库,然后要求用户建立具体的分类算法,以获得所需要的信息。 1.变量筛选分析 随着现代数据收集系统的不断改进,在一个取样点上常可以收集到几十种原始变量。在这些变量中有许多是相互关联的,可以通过寻找一组相互独立的变量,使多变量数据得到简化,这就是变量筛选分析。常用的变量筛选方法有主成分分析法、主因子分析法和关键变量分析法等。 主成分分析是以取样点作为坐标轴,以属性变量作为矢量矩阵,研究属性变量之间的亲疏关系。 主因子分析是以属性变量作为坐标轴,以取样点作为矢量矩阵,

属性数据与空间数据

属性数据与空间数据 1. 属性数据 地理要素具有描述性属性,与空间数据相对应的描述性数据。 2. 空间数据 空间数据是用来描述来自于现实的目标,将数据统一化,借以表明空间实体的形状大小以及位置和分布特征。定位是指在已知的坐标系里空间目标都具有唯一的空间位置;定性是指有关空间目标的自然属性,它伴随着目标的地理位置;时间是指空间目标是随时间的变化而变化;空间关系通常一般用拓扑关系表示。空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。空间数据是数字地球的基础信息,数字地球功能的绝大部分将以空间数据为基础。现在空间数据已广泛应用于社会各行业、各部门,如城市规划、交通、银行、航空航天等。随着科学和社会的发展,人们已经越来越认识到空间数据对于社会经济的发展、人们生活水平提高的重要性,这也加快了人们获取和应用空间数据的步伐。 空间数据是数据的一种特殊类型。它是指凡是带有空间坐标的数据,如建筑设计图、机械设计图和各种地图表示成计算机能够接受的数字形式。 3. 空间数据结构 空间数据结构是空间数据在计算机内的组织和编码形式。它是一种适合于计算机存贮、管理和处理空间数据的逻辑结构,是地理实体的空间排列和相互关系的抽象描述。它是对数据的一种理解和解释。空间数据结构又是指空间数据的编排方式和组织关系。空间数据编码是指空间数据结构的具体实现,是将图形数据、影像数据、统计数据等资料按一定的数据结构转换为适合计算机存储和处理的形式。不同数据源采用不同的数据结构处理,内容相差极大,计算机处理数据的效率很大程度取决于数据结构。 4. 特点 目标构成数据库的逻辑过程 随着信息技术的飞速发展和企业界新需求的不断提出,以面向事务处理为主的空间数据库系统已不能满足需要,信息系统开始从管理转向决策处理,空间数据仓库就是为满足这种新的需求而提出的空间信息集成方案,它有四个特点: ①主题与面向主题:与传统空间数据库面向应用进行数据组织的特点相对应,空间数据仓库中的数据是面向主题进行数据组织的。它在较高层次上将企业信息系统中的数据进行综合、归类,并加以抽象地分析利用。 ②集成的数据:空间数据仓库的数据是从原有的空间数据库数据中抽取来的。因此在数据进入空间数据仓库之前,必然要经过统一与综合,这一步是空间数据仓库建设中最关键最复杂的一步,所要完成的工作包括消除源数据中的不一致性和进行数据综合计算。 ③数据是持久的:空间数据仓库中的数据主要供决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。空间数据仓库的数据反映的是一段相当长的时间内的数据内容,是不同时间的空间数据库快照的集合和基于这些快照进行统计、综合和重组导出的数据,而不是联机处理的数据。空间数据库中进行联机处理的数据经过集成输入到空间数据仓库中,一旦空间数据仓库存放的数据已经超过空间数据仓库的数据存储期限,这些数据将从空间数据仓库中删去。 ④数据是随时间不断变化的:空间数据仓库的数据是随时间的变化不断变化的,它会不断增加新的数据内容,不断删去旧的数据内容,不断对数据按时间段进行综合。空间数据仓库用于支撑空间决策支持系统,它由四大部分组成:数据源、空间数据库系统、空间

数据挖掘中客户的特征化及其划分(一)

数据挖掘中客户的特征化及其划分(一) 摘要]良好客户关系已成为电子商务时代制胜的关键。在激烈的市场竞争中,客户关系管理逐渐成为企业关注的焦点。深入研究客户和潜在客户是在市场中保持竞争力的关键。本文通过对客户行为的特征化分析,以数据挖掘为分析工具,对客户关系管理进行了讨论,给出了相应的划分方法,使用这些划分方法,对客户进行分析是有意义的。 关键词]客户关系管理数据挖掘聚类分析 一、引言 在激烈的市场竞争中,客户关系管理(CustomerRelationshipManagement)逐渐成为各企业关注的焦点。一个成熟的CRM系统要能够有效地获取客户的各种信息,识别客户与企业间的关系及所有交互操作,寻找其中的规律,为客户提供个性化的服务,为企业决策提供支持。 在企业与客户的交互操作中,“二八原则”是值得借鉴的,即20%的客户对企业做出80%的利润贡献。但究竟谁是那20%的客户?又如何确定特定消费群体的消费习惯与消费倾向,进而推断出相应消费群体或个体下一步的消费行为?这都是企业需要认真研究的问题。 二、客户的特征化及其划分 企业认识客户和潜在客户是在市场保持竞争力的关键。特征分析是了解客户和潜在客户的极好方法,包括对感兴趣对象范围进行一般特征的度量。一旦知道带来最大利润客户的特征和行为,就可以直接将其应用到寻找潜在客户之中。有效寻找客户,认识哪些人群像自己的客户。因此,在争取客户的活动中,对感兴趣对象进行特征化及其划分是很有意义的。 对客户的特征化,顾名思义就是用数据来描述或给出客户(潜在客户)特征的活动。特征化可以在数据库(或数据库的不同部分)上进行。这些不同部分也称为划分,通常他们互不包含。 划分分析(SegmentationAnalysis)通常用于根据利润和市场潜力划分客户。如:零售商按客户在所有零售商店的总体购买行为,将客户划分为若干描述他们各自购买行为的区域,这样零售商可以评估哪些客户有最大利润。划分是把数据库分成互不相交部分或分区的活动。一般有两种方法:市场驱动法和数据驱动法。市场驱动法需要决定那些对业务有重要影响的特征,即需要预先选择一些特征变量(属性),以最终定义得到划分。数据驱动法是利用数据挖掘中的聚类技术或要素分析技术寻找同质群体。 三、数据挖掘的概念 数据挖掘(DataMining)是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。通过数据挖掘提取的知识表示为概念、规则、规律、模式等,它对企业的趋势预测和行为决策提供支持。 1.分类分析 分类是指将数据映射到预先定义好的群组或类。分类要求基于数据属性值来定义类别,通过数据特征来描述类别。根据它与预先定义好的类别相似度,划分到某一类中去。分类的主要应用是导出数据的分类模型,然后使用模型预测。 2.聚类分析 聚类是对抽象样本集合分组的过程。与分类不同之处在于聚类操作要划分的类是事先未知。按照同一类中对象之间较高相似度原则进行划分,目的是使同一类别个体之间距离尽可能小,不同类别中个体间距离尽可能大。类的形成是由数据驱动的。 3.关联规则 关联规则是从大量的数据中挖掘出有价值的描述数据项之间相互关联的知识。关联规则中有两个重要概念:支持度(Support)和信任度(Confidence)。它们是两个度量有关规则的方法,描述了被挖掘出规则的有用性和确定性。关联规则挖掘,希望发现事务数据库中数据项之间的关联,这些规则往往能反映客户的购买行为模式。

非参数统计检验方法的应用

论文投稿领域:数理经济与计量经济学 非参数统计检验方法的应用 阮曙芬1 程娇翼 1 张振中2 (1.中国地质大学数理学院,武汉 430074;2.中南大学数学科学与计算学院,长沙 410075) 摘要:本文对非参数统计中常用的三种假设检验方法进行了简单的介绍。运用 Kruskal-Wallis 检验方法对2002年前三季度的上海股市综合指数收益率数据进行了周末效应的检验,结果表明2002年上海股市综合指数收益率不具有周末效应。 关键字:符号检验;Wilcoxon 秩和检验;Kruskal-Wallis 检验 1引言 非参数统计是统计分析的重要组成部分。非参数假设检验是在总体分布未知或者总体分布不满足参数统计对总体所做的假定的时候,分析样本特点,寻找相应的非参数检验统计量。本文就是以此为出发点,介绍了非参数统计中假设检验常用的几个检验方法:符号检验、Wilcoxon 秩和检验和Kruskal-Wallis 检验,然后结合具体的问题和数据,在统计软件SAS 中作相应的非参数检验。 2非参数假设检验介绍 2.1 配对样本的符号检验 符号检验是根据正、负符号进行假设检验的方法。这种检验方法用于配对设计数值变量资料的假设检验,常常是差值不服从正态分布或者总体分布未知的情况下不能用t 检验的时候使用。其原理是对差值进行编制并冠以符号,然后对正负秩和进行比较检验。 设随机变量12,,...,n X X X 相互独立同分布,分布为()F x ,()F x 在0x =连续。假设检验问题 2.2 两独立样本的Wilcoxon 秩和检验 Wilcoxon 秩和检验的理论背景如下:有两个总体,一个总体的样本为12,,...,n X X X ,相互独立同分布,分布为()F x ;另一个样本为12,,...,n Y Y Y ,相互独立同分布,分布为()G x ,()F x , ()G x 连续。问随机变量Y 是否随机大于随机变量X ,即检验

非参数统计

中国海洋大学本科生课程大纲 课程属性:公共基础/通识教育/学科基础/专业知识/工作技能,课程性质:必修、选修 一、课程介绍 1.课程描述: 非参数统计是数理统计学的一个分支,它是针对参数统计而言的。所谓参数统计,简 单地说就是建立在总体具有明确分布形式,通常多为正态分布形式的假定基础之上,所建立 的统计理论和统计方法。而非参数统计是在不假定总体分布形式或在较弱条件下,例如总体 分布形式完全未知或分布形式是对称的,诸如这样一些宽泛条件下,尽量从数据本身获 得的信息,建立对总体相关统计特征进行分析和推断的理论、方法。 2.设计思路: 本课程是在已学数理统计基础上,通过非参数统计的学习,引导数学专业学生进一步增强对一般总体分析、推断的能力并加深对相关理论和方法的理解。 课程内容着重于基本知识点的理解,避免难度较大或较长定理的证明。目的是使学生对理论有一个基本的理解和在应用能力上的提高。课程内容包括以下四个方面: (1).非参数统计的基本概念:非参数统计方法的主要特点,次序统计量及其分布,U统计量, 秩统计量的概念,一些统计量的近似分布。 (2).非参数估计的方法:总体分位数的估计,对称中心的估计,位置差的估计。 (3).非参数检验的方法:总体p分位数的检验,总体均值检验,两样本的比较,随机性与 独立性检验,多总体的比较。 - 1 -

(4).总体分布类型的估计与检验:分布函数的估计与检验,概率密度估计。 3. 课程与其他课程的关系: 先修课程:《概率论》,《数理统计》,《多元统计分析》;并行课程:《应用回归分析》;后置课程:《统计软件》。 非参数统计是应用数学专业、信息与计算科学专业的选修课程,但对于今后从事统计研究和统计应用工作的学生来讲可以作为专业必修课学习。 二、课程目标 非参数统计具有应用性广,稳健性好等特点。通过本课程学习,要求学生了解或理解非参数统计的一些基本理论和方法,注重利用理论和方法、借助计算机解决问题的能力。开课学期结束时,要求学生能够做到: (1)理解非参数统计方法的主要特点及与参数统计方法的区别。掌握次序统计量及其分布;理解并掌握U统计量秩统计量的概念;理解一些常用统计量的近似分布。重点是次序统计量及其分布; U统计量构造,秩统计量; (2)掌握总体分位数估计、对称中心的估计、位置差估计的方法。 (3)理解各种检验的基本思想,掌握检验的一般步骤,掌握检验统计及其拒绝域。难点在于检验统计量的选取及概率分布。 (4)理解分布函数估计及检验的基步骤和过程。 (5)为更深入学习非参数统计学理论打下初步的基础。也为学习专业统计软件的作好准备。 三、学习要求 要完成所有的课程任务,学生必须: (1)按时上课,认真听讲,认真完成作业。其中有一些作业需要学生自编程序用机器完成。(2)按时完成并按时提交书面形式的作业。延期提交作业需要得到任课教师的许可。 (3)完成一定量的阅读文献和背景资料,可以以小组的形式讨论学习,促进同学间的心得交 - 1 -

多元统计分析第十章-属性数据的统计分析

第10章 属性数据的统计分析 列联表的独立性分析 10.1.1实例 列联表通常是用来描述两个及两个以上变量在各自不同的取值(或属性)组合水平上的观测频数数据,它常与定性变量相联系。通过对列联表的分析,可以了解这些变量之间的依赖关系。 例 在一个有三个主要大型商场的商贸中心,调查479个不同年龄阶段的人首先去三个商场中的哪一个,结果如表10-1所示。 表10-1 商场调查数据 那么通过对这个数据列表的分析,我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。可以看到,表中只有两个变量,这样的列联表称为二维列联表。 例 下表给出了一个假设的某大学毕业生的专业M (文科、理工科),性别G 及毕业后工作的收入 I (高、低)为变量的三维列联表,结果如表10-2所示。 表10-2 大学毕业生调查牙刷 则根据这样的含有三个变量(专业、性别和收入)的列联表,我们可以观察这些变量之间的关系,这样的列联表称为三维列联表。 10.1.2 定性变量与列联表 对定性变量的观测,一般是对它们在不同水平组合上的频数的记录,这里我们将定性变量所描述的不同状态称为该定性变量的水平。我们用C B A ,,表示定性变量,用k j i C B A ,,表示相应的水平。假设有n 个随机实验的结果按照两个变量A 和B 分类,A 取值为r A A A ,,21,B 取值为s B B B ,,21,将变量A 和B 的各种情况的组合用一张s r ?列联表表示,称s r ?列联表,如表8-3所示。其中ij n 表示A 取i A 及B 取j B 的频数。 ∑∑===r i s j ij n n 11 ,其中: 表示各行之和,,2,1,1 .r i n n s j ij i ==∑=

数据分析-分布类别

各种分布 泊松分布 Poisson分布,是一种统计与概率学里常见到的离散概率分布。 泊松分布的概率函数为: 泊松分布的参数λ是单位时间(或单位面积、单位体积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。 泊松分布的期望和方差均为 特征函数为: 泊松分布与二项分布 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧10,p≦0.1时,就可以用泊松公式近似得计算。 事实上,泊松分布正是由二项分布推导而来的。 泊松分布可作为二项分布的极限而得到。一般的说,若 ,其中n很大,p很小,因而不太大时,X的分布接近于泊松分布。这个事实有时可将较难计算的二项分布转化为泊松分布去计算。 应用示例

泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,某放射性物质发射出的粒子,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。 卡方分布 卡方分布( 分布)是概率论与统计学中常用的一种概率分布。n 个独立的标准正态分布变量的平方和服从自由度为n 的卡方分布。卡方分布常用于假设检验和置信区间的计算。 若n个相互独立的随机变量ξ?、ξ?、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution),即分布(chi-square distribution),其中参数n称为自由度。正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个分布。记为或者。 卡方分布与正态分布 卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,分布近似为正态分布。对于任意正整数x,自由度为 k的卡方分布是一个随机变量X 的机率分布。 期望和方差

非参数统计分析方法总结

非参数统计分析方法 一单样本问题 1,二项式检验:检验样本参数是否与整体参数有什么关系。 样本量为n给定一个实数MO(代表题目给出的分位点数),和分位 点口(0.25,0.5,0.75)。用S-记做样本中比M0小的数的个数,S+记做样本中比M0大的数的个数。如果原假设H0成立那么S-与n的比之应为n。 H0:M=M0 HI: M k MO或者M>M(或者M

H1 :不是随机的(混合倾向,游程多,长度短)(成群倾向,游程少,长度长) Spss步骤:分析一非参数检验一游程 得出统计量R 和p 值 当p值小于0.05时拒绝原假设,没有充足理由证明该数据出现是随机的二,两个样本位置问题 1,Brown —Mood 中位数检验 给出两个样本比较两个样本的中位数或者四分位数等是否相等或者有一定关系,设一个中值为M1,—个为M2 H0:M1=M2. HI: M1H M2或者M1>M或者M1

定性属性数据分析复习题

属性数据分析复习题 一、 填空(每题4分,共20分) 1. 按数据取值分类,人的身高,性别,受教育程度分别属于计量数据,名义数据,有序数据 2. 度量定性数据离散程度的量有离异比率, G-S 指数,熵 3. 分类数据的检验方法主要有2χ检验和似然比检验 4. 二值逻辑斯蒂线性回归模型的一般形式是011ln 1k k p x x p βββ=+++- 5. 二维列联表的对数线性非饱和模型有 3 种 二、 案例分析题(每题20分,共60分) 1.P40习题二1,给出上分位数20.05(5)11.07χ= 0123456:0.3,0.2,0.2,0.1,0.1,0.1H p p p p p p ====== 220.0518.0567(5)11.07χχ=>=,落入拒绝域,故拒绝原假设,即认为这些数据与 消费者对糖果颜色的偏好分布不相符 2.P42表 3.1独立性检验,给出上分位数2 0.05(1) 3.84χ= 012:H p p =(即认为肺癌患者中吸烟比例与对照组中吸烟比例相等) 112:H p p ≠

未连续性修正的: 22 2 2112212210.051212()106(6011332)9.6636(1) 3.8463439214n n n n n n n n n χχ++++-?-?===>=??? 带连续性修正的: 22 11221221220.051212(||)106(|6011332|53)27.9327(1) 3.8463439214 n n n n n n n n n n χχ++++--?-?-===>=??? 均落入拒绝域,故拒绝原假设,即认为肺癌患者中吸烟比例与对照组中吸烟比例不等 3.P83表 4.3 独立性检验,给出上分位数2 0.05(2) 5.99χ= 0:ij i j H p p p ++=(即认为男性和女性对啤酒的偏好无显著性差异) 220.0590.685(2) 5.99χχ=>=,落入拒绝域,故拒绝原假设,即认为男性和女性对 啤酒的偏好有显著性差异 三、简答(每题10分) 1.谈谈你对p 值的认识 P 值是: 1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。 2) 拒绝原假设的最小显著性水平。 3) 观察到的(实例的)显著性水平。 4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。 P 值(P value )就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P 值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P 值越小,我们拒绝原假设的理由越充分。总之,P 值越小,表明结果越显著。 统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著, P<0.01 为非常显著 2.写出三维列联表各种独立性之间的关系

属性数据分析资料

属性数据分析 一属性变量和属性数据 通常所指属性数据(categorical data),是说反映事物属性的数据,也称为定性数据或类别数据,它是属性变量取的值。属性变量可能是表示事物属性,取值为事物属性的量反映事物的客观属性,例如变量“性别”取值为男,女;又如变量是中医所分人的体质,取值为平和,气虚,阳虚,阴虚,瘀血,痰湿,湿热,气郁,特凛。对事物表态的量表达人们主观对事物的评论,例如变量是“某人对某个政策的态度”,取值是赞成,中立和反对;又如变量是“人对医疗效果的评价”,取值为特好,好,一般,差,很差。区间值变量取值为多个互不重叠区间:例如变量是“顾客的购买水平”,取值分为[0,100),[100,200),[200,300)和300以上。 “属性变量”是反映事物的客观属性或对事物表态,以及区间值变量,它是一种变量,它取的值之间不能做加,减,乘,除等运算,而且所取的值只能是有限个,属性变量取的值也称为属性变量的“水平”。 二属性数据表示形式 属性变量有4种表示形式:原始属性变量形式、指示变量形式(调查数据常用)、频数形式和列联表。 例1 某连锁超市要检验商品销售情况与陈列方式是否相关,随机抽取了10家门店,分别以C B A 、、共3种方式陈列(即第一个属性变量是“陈列方式”,取值A 、B 、C ),各门店销售情况分为 “high ”及“low ”两类(即第二个属性变量是“销量”,取值“high ”和“low ”)。这两个属性变量的统计资料4种形式如下: 属性变量形式的样本是把各个属性变量的1次观测值排成1行;例如例1中属性变量“销量”和“排列方式”的第1个观测值(第1个门店)的观测值是“high ”和“B ”,就把“high ”、“B ”排在第一行,见下表 表 超市数据属性变量形式 指示变量形式是列出各个属性变量的所有值,对每个值建立一个变量,例如例1中两个属性变量取值“high ”、“low ”、“A ”、“B ”、“C ”;建立5个指示变量:sl ,sh,ma,mb,mc.每次观测中,属性变量的哪个值出现了,就在对应列中用1表示,否则用0表示;例如对于超市数据建立5个变量后:sh 表示变量销售额高,sl 表示变量销售额低,ma 表示排列方式是A ,

属性相关分析

在机器学习、统计学、模糊逻辑和粗糙集等领域提出了许多属性相关分析的方法。属性相关分析的基本思想就是针对给定的数据集或概念,对相应属性进行计算已获得(描述属性相关性)的若干属性相关参量。这些参量包括:信息增益、Gini 值、不确定性和相关系数等。 采用属性相关分析方法,以帮助滤去统计无关或弱相关的属性并保留(与挖掘任务)最相关的属性。包含属性(维)相关分析的定性概念描述就称为分析定性概念描述(analytical characterization )。包含属性(维)相关分析的对比定性概念描述也就称为分析对比定性概念描述(analytical comparison)。 直观上讲,若一个属性(维)的取值可以帮助有效地区分不同类别的数据集(class ,那么这个属性(维)就被认为是与相应类别数据集密切相关的。例如:一个汽车的颜色不太可能用于区分贵贱汽车(类别);但是汽车的型号、品牌、风格可能是更相关的属性。此外即使同一个属性(维),其不同抽象层次的概念对不同类别数据集的分辨能力也不同。例如:在出生日期(birth date)维中,birth day 和birth month 都不太可能与雇员的工资相关;而只有birth decade(年龄)可能与雇员的工资相关。这也就意味着属性(维)相关分析应该在多层次抽象水平上进行,只有最相关的那个层次的属性(维)应被包含到数据分析中。 当属性相关分析应用在聚类算法时,它根据数据在每个属性上的分布情况来删除稀疏的属性和数据,最终达到降维和缩小数据集的目的;当属性相关分析应用在离群数据挖掘时,它根据数据在每个属性上的稀疏程度删除稠密的属性和数据,通过删除稠密属性和数据,也能达到降维和缩小数据集的目的。利用属性相关分析,首先,可以删除在所有维组合中都处于稠密区域的数据,由于这些数据不可能出现在稀疏区域内,因此他们也不可能出现在离群子空间中;第二,利用属性相关分析删除不相关属性,不相关属性是指在这个属性中所有的数据都分布在稠密区域内,容易知道由稠密区域构成的维不可能成为构成离群子空间的维,因此,不相关属性可以删除。 关于属性相关分析,在机器学习、统计、模糊和粗糙集理论等方面都有许多研究。属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。这种度量包括信息增益、Gini 索引、不确定性和相关系数。 这里,我们介绍一种方法,它将信息增益分析技术(诸如在学习决策树 ID3 和C4.5 算法中提供的 )和基于多维数据分析的方法集成在一起。该方法删除信息量较少的属性,收集信息量较多的属性,用于概念描述分析。 信息增益计算如何工作? 设 S 是训练样本的集合,其中每个样本的类标号是已知的。事实上,每个样本是一个元组,一个属性用于确定训练样本的类。例如,属性 status 可以用于定义每个样本的类标号或者是“graduate”,或者是“undergraduate”。假定有 m 个类。设 S 包含 si 个 Ci 类样本,i = 1, ..., m 。一个任意样本属于类 Ci 的可能性是 si / s ,其中s 是集合S 中对象的总数。对一个给定的样本分类所需的期望信息是: ∑=-=m i S S i m i S S s s s I 1221log ),...,,( 具有值{a1,a2,...,av}的属性 A 可以用来将 S 划分为子集{ S1,S2,...,Sv },其中,Sj 包含 S 中A 值为 aj 的那些样本。设 Sj 包含类 Ci 的sij 个对象。根据 A 的这种划分的期望信息称作 A 的熵。它是加权平均:

属性数据分析第五章课后答案

属性数据分析第五章课后作业 6.为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老年人中作调查。调查数据如下: 试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问题,你有什么看法?为什么? 解:(1)数据压缩分析 首先将上表中不同年龄段的数据合并在一起压缩成二维2×2列联表1.1,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异? 表1.1 “性别×偏好饮料”列联表 二维2×2列联表独立检验的似然比检验统计量Λ 2的值为0.7032,p值 -ln 为05 ≥ = =χ p,不应拒绝原假设,即认为“偏好类型” (2> P 4017 .0 )1( ) .0 7032 .0 与“性别”无关。 (2)数据分层分析 其次,按年龄段分层,得到如下三维2×2×2列联表1.2,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异? 表1.2 三维2×2×2列联表

在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调查,在“年青人”年龄段,男性中偏好饮料A 占58.73%,偏好饮料B 占41.27%;女性中偏好饮料A 占58.73%,偏好饮料B 占41.27%,我们可以得出在这个年龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。同理,在“老年人”年龄段,也有一定的差异。 (3)条件独立性检验 为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。 即由题意,可令C 表示年龄段,1C 表示年青人,2C 表示老年人;D 表示性别,1D 表示男性,2D 表示女性;E 表示偏好饮料的类型,1E 表示偏好饮料A ,2E 表示偏好饮料B 。欲检验的原假设为:C 给定后D 和E 条件独立。 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量Λ-ln 2的值如下: 2C 层 822.11ln 2=Λ-248.6ln 2=Λ- 条件独立性检验问题的似然比检验统计 量是这两个 似然比检验统计量的和,其值为 07.18822.11248.6ln 2=+=Λ- 由于2===t c r ,所以条件独立性检验的似然比检验统计量的渐近2χ分布的自由度为2)1)(1(=--t c r ,也就是上面这2个四格表的渐近2χ分布的自由度的和。由于p 值50.00011916)07.18)2((2=≥χP 很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。 (4)产生偏差的原因 a 、在(1)中,将不同年龄段的数据压缩在一起合起来后分析发现男性和女性在

消费者的患者属性之数据分析

消费者的患者属性之数据分析 一个人会拥有多种属性,而这些属性也会主导着一个人的心理活动与行为。我们做网络营销的需要洞悉患者的心理,明白患者的需要。因此,通过对市场上的人的属性的分析,有助于我们更好的理解市场的分布与需求,更精准的向患者推出我们的产品。 本培训以贵阳地区的数据为样本,正如培训上说的,一组数据说明不了什么,只有将各种数据结合起来才能看出数据背后隐藏的东西,下面说说我的想法(以抑郁症为例)。 首先,我最先关注的是有关年龄的数据。抑郁症的发病年龄主要是在35岁-45岁,成年人的发病率高于青少年。因此,我们的主要消费对象是以35岁-45岁的中年人为主。但是,数据中有指出:贵阳地区的网民10岁-29岁的占60.5%,其中19岁以下的占38%,这说明贵阳网民以青少年为主,而我们的主要对象中年人的比率较少。从这里可以明白,我们的网络营销想要直接做给消费者(中年人)看很困难,我们在策划时可以这样考虑:直接不行就间接地,我们的营销以面向青少年为主,并通过他们引导消费者(中年人)过来,这样的话比起以消费者(中年人)为对象的直接营销效果可能更好。 其次,我关注的是有关性别的数据。抑郁症的发病率男女比例是1:2左右,其中男性是12%,女性是25%,产后是33.1%,女性因为月经期、产后期、绝经期等生理现象导致其发病率高于男性。而数据显示:贵阳人口的男女比例是1:1,而15岁以下孩子占的比率是65岁以上老人的2倍左右。结合上面的发病年龄,可以得出:患者组建家庭的可能性较大,家庭内较大可能有孩子,并且女性更加常见。面对这样的消费者,我们要分析她们的消费心理,更多的从抑郁症对家庭的危害方面切入,更能打动消费者的心,引导她们治疗的欲望。 再者,是关于治愈率与复发率的数据。数据指出有62.9%的抑郁症患者没有接受任何治疗(这也是一个重要的营销点),首次治疗的治愈率只有35%。这项数据告诉我们:大部分的抑郁症患者处于未治疗或治疗不愈的状态。另一项数据则指出:抑郁症治愈后10年内的复发率是75%-80%,而其中药物治疗1年内的复发率是30%。它反映出一个信息:抑郁症的复发率高,特别是药物治疗的复发率。两项数据结合起来告诉我们:患者渴望一种新型的治疗方式,一种能够有效治疗抑郁症并防止其复发的治疗方法。我们在策划时可以结合这些数据着重突出技术的优势,并通过一些临床数据对比和经典案例来增加说服力。 最后,则是关于自杀率的数据。抑郁症之所以说是严重的精神疾病,就是因为在病情严重时它可能导致病人自杀。数据指出:抑郁症患者的自杀率是15%,而在每年的自杀人群中抑郁症所占的比率则是高达50%-70%。这项数据简单直接的告诉我们抑郁症的危害是多么严重,但患者不知道。因此,我们需要做的就是让患者明白抑郁症的严重危害,并引导患者的就医欲望。 我的分析就到此结束了。我想说:我们在策划时,对于市场的各项数据的分析是必须的。只有对数据进行分析,由此了解到市场的分布与需求,以及市场未来的可能的波动等等,再全面的结合我们的各种条件,统一规划下,我们所策划的营销才可能真正符合患者的需求,做出一个成功的营销方案。

相关主题