搜档网
当前位置:搜档网 › stata语法第四讲

stata语法第四讲

stata语法第四讲
stata语法第四讲

第4讲两组计量资料平均水平的统计检验

一、配对设计的平均水平检验

统计方法选择原则:

如果配对的差值服从近似正态分布(小样本)或大样本,则用配对t 检验

小样本的情况下,配对差值呈明显偏态分布,则用配对秩符号检验(matched-pairs signed-ranks test)。

例1 10例男性矽肺患者经克矽平治疗,其血红蛋白(g/dL)如下:表 10例男性矽肺患者血红蛋白值(g/dL)

病例号12345678910

治疗前11.315.015.013.512.810.011.012.013.012.3

治疗后14.013.814.013.513.512.014.711.413.812.0

问:治疗前后的血红蛋白的平均水平有没有改变

这是一个典型的前后配对设计的研究(但不提倡,因为对结果的解释可能会有问题)

Stata数据输入结构

X1 X2

11.3 14

15 13.8

15 14

13.5 13.5

12.8 13.5

10 12

11 14.7

12 11.4

13 13.8

12.3 12

操作如下:

gen d=x1-x2 产生配对差值的变量d

swilk d 正态性检验

正态性检验结果如下:

. swilk d

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z

-------------+-------------------------------------------------

d | 10 0.92515 1.154 0.248 0.40189

正态性检验的无效假设为:资料正态分布

相应的备选假设为:资料非正态分布

α=0.05,由于正态性检验的P值=0.40189>>α,故可以认为资料近似服从正态分布。

ttest d=0 配对t检验: H0:μd=0 vs H1:μd≠0,α=0.05

结果如下:

One-sample t test

------------------------------------------------------------------------------ Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- d | 10 -.6799999 .5204272 1.645735 -1.857288 .4972881 ------------------------------------------------------------------------------ Degrees of freedom: 9

Ho: mean(d) = 0

Ha: mean < 0 Ha: mean ~= 0 Ha: mean > 0

t = -1.3066 t = -1.3066 t = -1.3066

P < t = 0.1119 P > |t| = 0.2237 P > t = 0.8881

P值=0.2237>α,故认为治疗前后的血红蛋白的平均数差异没有统计学意义。即:没有足够的证据可以认为治疗前后的血红蛋白的总体平均数不同。

如果已知差值的样本量,样本均数和样本标准差,可以用立即命令如下(如,已知样本量为10,差值的样本均数为-0.66,差值的标准差为1.65,则输入命令如下:

ttesti 样本量样本均数样本标准差 0

本例为: ttesti 10 -0.66 1.65 0

得到下列结果如下:

. ttesti 10 .66 1.65 0

One-sample t test

------------------------------------------------------------------------------ | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- x | 10 .66 .5217758 1.65 -.5203389 1.840339 ------------------------------------------------------------------------------ Degrees of freedom: 9

Ho: mean(x) = 0

Ha: mean < 0 Ha: mean ~= 0 Ha: mean > 0

t = 1.2649 t = 1.2649 t = 1.2649

P < t = 0.8812 P > |t| = 0.2377 P > t = 0.1188

结果解释与结论同上述相同。

如果对于小样本的情况下,差值不满足正态分布,则用Match-Sign-rank test,操作如下:

signrank 差值变量名=0

假如本例不满足正态分布(为了借用上例资料,而假定的,实际上本例满足正态分布)则

H0:差值的中位数=0

(其意义是治疗前的血红蛋白配大于治疗后的血红蛋白的概率=治疗前的血红蛋白小于治疗后的血红蛋白的概率)

H1:差值的中位数≠0

α=0.05

本例为 signrank d=0

Wilcoxon signed-rank test

sign | obs sum ranks expected

-------------+---------------------------------

positive | 4 18 27

negative | 5 36 27

zero | 1 1 1

-------------+---------------------------------

all | 10 55 55

unadjusted variance 96.25

adjustment for ties 0.00

adjustment for zeros -0.25

----------

adjusted variance 96.00

Ho: d = 0

z = -0.919

Prob > |z| = 0.3583

P值=0.3583>>α,故没有足够的证据说明两个总体不同。

二、平行对照设计的两组资料平均水平统计检验

统计方法选择原则:

如果两组资料的方差齐性和相互独立的,并且每组资料服从正态分布(大样本资料可以忽略正态性问题),则用成组t检验,否则可以用成组Wilcoxon秩和检验。

例2 为研究噪声对纺织女工子代智能是否有影响,一研究人员在某纺织厂随机抽取接触噪声95dB(A)、接触工龄5年以上的纺织女工及同一单位、条件与接触组相近但不接触噪声的女职工,其子女(学前幼儿)作为研究对象,按韦氏学前儿童智力量表(中国修订版)测定两组幼儿智商,结果如下。问噪声对纺织女工子

代智能有无影响?(接触组group=0,不接触组group=1) 资料及其结果如下:

group x

0 79

0 93

0 91

0 92

0 94

0 77

0 93

0 74

0 91

0101

083

073

088

0102

090

0100

081

091

083

0106

084

078

087

095

0101

1101

1100

1114

186

1106

1107

1107

194

189

1104

198

1110

189

1103

189

1121

194

195

192

1109

198

198

1120

1104

1110

方差齐性检验

H0:σ1=σ2vs H1:σ1≠σ2

α=0.1

两组方差齐性的检验命令(仅适合两组方差齐性检验)

sdtest x,by(group)

Variance ratio test

------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+--------------------------------------------------------------------

0 | 25 89.08 1.822928 9.11464 85.31766 92.84234

1 | 25 101.5

2 1.900982 9.504911 97.59657 105.4434 ---------+-------------------------------------------------------------------- combined | 50 95.

3 1.577456 11.1543 92.12998 98.47002 ------------------------------------------------------------------------------ Ho: sd(0) = sd(1)

F(24,24) observed = F_obs = 0.920

F(24,24) lower tail = F_L = F_obs = 0.920

F(24,24) upper tail = F_U = 1/F_obs = 1.087

Ha: sd(0) < sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) > sd(1)

P < F_obs = 0.4195 P < F_L + P > F_U = 0.8389 P > F_obs = 0.5805 P值=0.8389>>α,因此可以认为两组方差齐性的。

正态性检验:H0:资料服从正态分布vs H1:资料偏态分布

α=0.05

每一组资料正态性检验

. swilk x if group==1

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z

-------------+-------------------------------------------------

x | 25 0.97403 0.722 -0.667 0.74747

. swilk x if group==0

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z

-------------+-------------------------------------------------

x | 25 0.97199 0.778 -0.513 0.69588

P值均大于α,因此可以认为两组资料都服从正态分布

H0:μ1=μ2vs H1:μ1≠μ2

α=0.05

ttest x,by(group)

Two-sample t test with equal variances

------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+--------------------------------------------------------------------

0 | 25 89.08 1.822928 9.11464 85.31766 92.84234

1 | 25 101.5

2 1.900982 9.504911 97.59657 105.4434 ---------+-------------------------------------------------------------------- combined | 50 95.

3 1.577456 11.1543 92.12998 98.47002 ---------+-------------------------------------------------------------------- diff | -12.4

4 2.633781 -17.73557 -7.144429 ------------------------------------------------------------------------------ Degrees of freedom: 48

Ho: mean(0) - mean(1) = diff = 0

Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0

t = -4.7232 t = -4.7232 t = -4.7232

P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000

P值(<0.0001)<α,并且有μ

0-μ

1

的95%可信区间为(-17.73557,-7.144429)

可以知道,不接触组幼儿的平均智商高于接触组的幼儿平均智商,并

且差别有统计学意义。

如果已知两组的样本量、样本均数和样本标准差,也可以用立即命令进行统计检验

ttesti 样本量1 样本均数1 样本标准差1 样本量2 样本均数2 样本标准差2

例如:本例第1组n1=25 均数1=89.08 标准差1=9.115

第2组 n2=25 均数2=101.52 标准差2=9.505

则ttesti 25 89.08 9.115 25 101.52 9.505

Two-sample t test with equal variances

------------------------------------------------------------------------------ | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- x | 25 89.08 1.823 9.115 85.31751 92.84249 y | 25 101.52 1.901 9.505 97.59653 105.4435 ---------+-------------------------------------------------------------------- combined | 50 95.3 1.577482 11.15448 92.12993 98.47007 ---------+-------------------------------------------------------------------- diff | -12.44 2.633843 -17.7357 -7.144303 ------------------------------------------------------------------------------ Degrees of freedom: 48

Ho: mean(x) - mean(y) = diff = 0

Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0

t = -4.7231 t = -4.7231 t = -4.7231

P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000

结果解释同上。

方差不齐的情况,(小样本时,资料正态分布)还可以用t’检验

命令:ttest 观察变量名,by(分组变量名) unequal

立即命令为ttesti 样本量1 均数1 标准差1 样本量2 均数2 标准差2,unequal

假定本例的资料方差不齐(实际为方差不齐的),则要用t’检验如下ttest x,by(group) unequal

Two-sample t test with unequal variances

------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+--------------------------------------------------------------------

0 | 25 89.08 1.822928 9.11464 85.31766 92.84234

1 | 25 101.5

2 1.900982 9.504911 97.59657 105.4434 ---------+-------------------------------------------------------------------- combined | 50 95.

3 1.577456 11.1543 92.12998 98.47002 ---------+-------------------------------------------------------------------- diff | -12.4

4 2.633781 -17.73581 -7.144189 ------------------------------------------------------------------------------ Satterthwaite's degrees of freedom: 47.9159

Ho: mean(0) - mean(1) = diff = 0

Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0

t = -4.7232 t = -4.7232 t = -4.7232

P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000

结果解释同上。

t’检验有许多方法,这里介绍的Satterthwaite方法,主要根据两个样本方差差异的程度校正相应的自由度,由于本例的两个样本方差比较接近,故自由度几乎没有减少(t检验的自由度为48,而本例t’自由度为47.9159)。由于t检验要求的两组总体方差相同(称为方差齐性),以及由于抽样误差的原因,样本方差一般不会相等,但是方差齐性的情况下,样本方差表现为两个样本方差之比≈1。(注意:两个样本方差之差很小,仍可能方差不齐。如:第一个样本标准差为0.1,样本量为100,第2个样本标准差为0.01,样本量为100,两个样本标准差仅差0.09,但是两个样本方差之比为100。故用方差齐性检验的结果如下:

方差齐性的立即命令为 sdtesti 样本量1 . 标准差1 样本量2 . 标准差2

sdtesti 100 . 0.1 100 . 0.01

Variance ratio test

----------------------------------------------------------------------------- | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+------------------------------------------------------------------- x | 100 . .01 .1 . . y | 100 . .001 .01 . . ---------+------------------------------------------------------------------- combined | 200 . . . . . ----------------------------------------------------------------------------- Ho: sd(x) = sd(y)

F(99,99) observed = F_obs = 100.000

F(99,99) lower tail = F_L = 1/F_obs = 0.010

F(99,99) upper tail = F_U = F_obs = 100.000

Ha: sd(x) < sd(y) Ha: sd(x) ~= sd(y) Ha: sd(x) > sd(y)

P < F_obs = 1.0000 P < F_L + P > F_U = 0.0000 P > F_obs = 0.0000

P值<0.0001,因此认为两组的方差不齐。故方差齐性是考察两个样本方差之比是否接近1。

如果本例的资料不满足t检验要求(注:实际是满足的,只是想用本例介绍成组秩和检验),则用秩和检验(Wilcoxon Ranksum test)。

H0:两组资料所在总体相同

H1:两组资料所在总体不同

α=0.05

命令:ranksum 观察变量名,by(分组变量)

本例为 ranksum x,by(group)

. ranksum x,by(group)

Two-sample Wilcoxon rank-sum (Mann-Whitney) test

group | obs rank sum expected

-------------+---------------------------------

0 | 25 437 637.5

1 | 25 838 637.5

-------------+---------------------------------

combined | 50 1275 1275

unadjusted variance 2656.25

adjustment for ties -3.70

----------

adjusted variance 2652.55

Ho: x(group==0) = x(group==1)

z = -3.893

Prob > |z| = 0.0001

P值<0.0001<α,故认为两个总体不同

练习题

一、某地随机抽样调查了部分健康成人红细胞数和血红蛋白量,结果如下,请就此资料统计分析:

指标性别例数均数标准差标准值

男360 4.660.58 4.84

红细胞数(1012/L)

女255 4.180.29 4.33

男360134.507.10140.20

血红蛋白(g/L)

女255117.6010.20124.70

(1)该地健康成年男女血红蛋白含量有无差别?

(2)该地男女两项血液指标是否均低于上表的标准值(若测定方法相同)?

二、为了解聋哑学生学习成绩与血清锌含量的关系,某人按年龄、性别和班级在聋哑学校随机抽取成绩优、差的14对学生进行配对研究,得其结果如下。问聋哑学生学习成绩与血清锌含量有无关系?

表 14对学生的血清锌含量(μg/mL)

编号优生组差生组编号优生组差生组

1 1.20 1.318 0.800.86

20.99 1.3490.840.72

3 1.03 1.10100.850.88

40.900.7211 1.050.81

5 1.220.9212 1.08 1.30

60.90 1.3413 1.150.85

70.970.98140.900.80

教学应用:考察影响t检验结果的各种因素

1. 首先把程序ttest

2.ado和程序ttestexp.ado复制到stata所在的

目录下\ado\base(例如:Stata软件安装在D:\stata,则把这两个程序复制到d:\stata\ado\base目录下。然后输入连接命令:在STATA环境下,输入 net set ado 路径\stata\ado\base。(路径表示Stata所在的盘符和目录)

2. 程序ttest2.ado是模拟在正态总体中随机抽10000个样本,每个样

本有2组,两组的样本量、正态分布的总体均数和标准差由读者选择输入,考察α=0.05的情况下,考察当两个总体均数相同时拒绝

H

的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总

体均数不同时接受H

的比例(估计发生第二类错误的概率)。

运行ttest2.ado的输入命令为:

ttest2 样本量1 均数1 标准差1 样本量2 均数2 标准差2

例如:考察两组样本量均为30,总体均数均为100,标准差均为6

的拒绝H

0(μ

1

2

)比例,结果如下:

. ttest2 30 100 6 30 100 6

两样本t检验模拟程序

输入样本量1 均数1 标准差1 样本量2 均数2 标准差2

sig | Freq. Percent Cum.

------------+-----------------------------------

receive | 9506 95.06 95.06

refuse | 494 4.94 100.00

------------+-----------------------------------

Total | 10000 100.00

Variable | Obs Mean Std. Dev. Min Max

-------------+-----------------------------------------------------

average1 | 10000 99.99388 1.083106 95.77671 104.2778

sd1 | 10000 5.942067 .7764423 3.245709 8.692573

average2 | 10000 99.99675 1.086406 95.91508 103.8237

sd2 | 10000 5.949536 .7776711 3.276635 9.546211

t | 10000 -.003644 1.0035 -4.32787 3.602131

-- Binom. Interp. -- Variable | Obs Percentile Centile [95% Conf. Interval] -------------+----------------------------------------------------------- t | 10000 2.5 -2.001922 -2.077161 -1.955956 | 50 -.0115932

-.0389369 .0137221

| 97.5 1.992317 1.933308

2.033179

average1 | 10000 2.5 97.85904 97.79236 97.93009 | 50 99.98936 99.96717

100.0172

| 97.5 102.1116 102.0614

102.1734

average2 | 10000 2.5 97.86119 97.80749 97.91781 | 50 99.9868 99.96412

100.0107

| 97.5 102.1835 102.1131

102.2403

在随机抽10000个样本中,计算了10000个t值,结果有494次拒绝

H

0(μ

1

2

),因此非常接近α=0.05。

建议读者运行程序ttest2考察下列情况

目的1:μ

1≠μ

2

时,不同的样本量,考察下列不同情况下的接受H

的比

例(估计β)以及两组样本量之比不同的情况对检验结果的影响。

两组的总体标准差σ=2

μ

1=100 μ

2

=99 μ

1

=100 μ

2

=98 μ

1

=100 μ

2

=97

n

1:n

2

10:10 10:10 10:10

n

1:n

2

20:20 30:30 20:20

n

1:n

2

30:30 10:50 30:30

n

1:n

2

40:40 40:40 40:40

n

1:n

2

30:50 30:50 30:50

n

1:n

2

20:60 20:60 20:60

n

1:n

2

10:70 10:70 10:70

目的2:考察方差不齐对t检验(不是t’检验)结果的影响

μ

1=100 μ

2

=100 μ

1

=100 μ

2

=98 μ

1

=100 μ

2

=97

σ

1=1 σ

2

=9 σ

1

=9 σ

2

=1 σ

1

=5 σ

2

=5

n

1:n

2

40:10 40:10 40:10

n

1:n

2

10:40 10:40 10:40

n

1:n

2

60:30 60:30 60:30

n

1:n

2

30:60 30:60 30:60

n

1:n

2

30:30 30:30 30:30

n

1:n

2

40:40 40:40 40:40

n

1:n

2

40:40 40:40 40:40

目的3:通过运行程序ttestexp.ado,考察资料非正态分布对结果的

影响。

3. 程序ttestexp.ado是模拟在指数分布总体中随机抽10000个样本,

每个样本有2组,两组的样本量和总体均数由读者选择输入,考察α=0.05的情况下,考察当两个总体均数相同时拒绝H0的比例(拒绝的频率估计第一类错误)是否接近0.05和当两个总体均数不同时

接受H

的比例(估计发生第二类错误的概率)。

运行ttestexp.ado的输入命令为:

ttestexp 样本量1 均数1 样本量2 均数2

例如:考察两组样本量均为10,总体均数均为1的拒绝H

0(μ

1

2

)的比

例,结果如下:

. ttestexp 5 1 5 1

指数分布

输入样本量1 均数1 样本量2 均数2

Variable | Obs Mean Std. Dev. Min Max

-------------+-----------------------------------------------------

average1 | 10000 .9942006 .444696 .1223783 3.46752

sd1 | 10000 .8637844 .5004927 .0310705 4.281092

average2 | 10000 1.007233 .4560518 .0613991 3.577513

sd2 | 10000 .8707893 .5053219 .0353676 4.620248

t | 10000 -.0177069 1.115122 -5.645559 6.235384

sig | Freq. Percent Cum.

------------+-----------------------------------

receive | 9630 96.30 96.30

refuse | 370 3.70 100.00

------------+-----------------------------------

Total | 10000 100.00

-- Binom. Interp. -- Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------- t | 10000 2.5 -2.169495 -2.23945 -2.096289

| 50 .0088744 -.0182028 .0357137 | 97.5 2.089225 2.030593 2.155895 average1 | 10000 2.5 .3240474 .3139804 .3349038 | 50 .9310558 .9198599 .9414931 | 97.5 2.041828 2.010877 2.081691 average2 | 10000 2.5 .3262316 .3131719 .3370006 | 50 .9381162 .9254703 .9481275 | 97.5 2.092387 2.0545 2.14614

拒绝H 0(μ1=μ2)的比例为3.7%,离开α=0.05,较远。考察下列样本量情况与偏态分布造成的影响之间的关系。

n 1:n 2

n 1:n 2

n 1:n 2

n 1:n 2

n 1:n 2

μ1=1,μ2=1 5:5 10:10 30:30 20:40 60:60 μ1=1.5,μ2=1 5:5 10:10 30:30 20:40 60:60 μ1=2,μ2=1 5:5 10:10 30:30 20:40 60:60 您能从上述模拟结果可以得到下列结论

1)当μ1≠μ2时且方差齐性的正态分布情况下,n 1=n 2时,拒绝H 0的比例比较高,可以证明t 检验中,两组样本量为n 1和n 2,则其检验效能等价于每组样本量相同n=

12

2n n +。特别当两组样本量之比为n :kn 时,则样

本量等价于

2221111n

n n kn

k

=

<++,也就是说,如果一组的样本量为10,另一组的样本量再大,其检验效能也不会超过两组样本量相同且为20的统计检验效能。

2)当方差不齐时,且μ1=μ2,拒绝H 0的比例偏离α,但是n 1=n 2时,方差不齐对结果的影响将下降。

3)资料偏态分布,则小样本时,偏态分布对结果有影响,大样本时,

偏态分布对结果基本无影响。

Stata12软件的基本设定(设置)

Stata12 软件的基本设定 如果你已经安装了stata12,请直接跳到(6)。 ( 1)将StataSE12.1绿色版.7z解压到D盘根目录,即D:\stata12(注意:是D:\stata12,而 非D:\stata12 \stata12,另外, stata12 是小写)。 (下载地址: https://www.sodocs.net/doc/e616897037.html,/share/link?shareid=2683949182&uk=3523563089) (2)打开stata12:双击图1中带有蓝色阴影的图标即可。1 图 1stata12 放置界面 (3)关于更新 A 、首次打开 stata12,会弹出对话框,询问你是否需要更新。如果不需要更新,请按下 图进行设定: 图 2首次打开stata12 时的更新设定B(、为了节省时间,这一步可以跳过,对于一般用户而言,更新与否不会影响你的使 用效果)如需把stata12 更新到最新版本,请在command窗口中输入updateal l命令。更新过程大概需要几分钟到几十分钟不等。特别注意的是,更新完毕后,你一定要输入如下 命令,才算是真正完成了stata 的更新: updateswap。这个命令的作用是用新下载的文件覆盖 旧文件。忘记这一步,往往会导致你的stata 丢失变量或出现一些奇怪的现象。 1 你也可以右击这个图标,然后选择“附加到开始菜单”。这样 stata12 的 logo 就会出现在开始 菜单中,每次启动 stata12 就只需从“开始”菜单中单击这个 logo 即可。

(4)关于profile.do文件。每次启动stata12 时,它会自动执行D:\stata12 文件夹下的 profile.do文件,该文件中包含了一系列命令,用于设定stata所占用的内存,各种 文件路径的位置等信息。如果你是按照上述要求放置stata12 文件的,那么启动 stata12 后,屏幕上应该显示如下信息(否则你要检查文件名的拼写是否正确):running stata12 profi le .do... ( 5)如果你的计算机分区中没有 D 盘,你也可以把stata12 放置于其他盘符下,但需要做一些微小的调整。这里以 F 盘为例,也可以是C, H, K 等其他盘 ①.将 stata12 解压后放置于 F 盘下,即F:\stata12 。注意: stata 是小写。 ②.修改 profile.do 文件,具体方法为 : Step1: 输入 doedit F:\stata12 \prof il e. do命令,打开 profile.do 文件; Step2:将第六行 中的 localD"D" 命令修改为 l ocal D"F"; Step3:保存 profile.do文件,退出stata12,然后重启即可。 ③.若上述设定无误,则在重新打开stata12 后,屏幕第一行会显示如下信息: running stata12profi le .d o... 同时,输入sysdir命令,屏幕上会呈现如下信息( 此时你才能正确使用外部命令): .sy sdir STATA: F stata12 UPDATES: F stata12 \ado\updat BASE: F stata12 \ado\bas SIT E: F stata12 \ado\s it PLUS: F stata12 \ado\p PERSONAL: F stata12 \ado\personal PartII :课件的使用方法 Q1. 如何打开课堂上使用的do 文档? A:请将PX_aufe.rar压缩包解压到D:\stata12\ado\personal 文件夹中,即 D:\stata12\ado\personal\PX_aufe 。若希望练习第一讲中的相关操作,可依次执行如下命令:Step1:在STATA命令窗口中输入cdD:\stata12\ado\personal\PX_aufe命令,定义当前工作 路径(会显示在 STATA 屏幕左下角); Step2:输入doedit xB01_Panel_Data命令,即可打开第一讲的讲义 xB01_Panel_Data.do 文件。当然,我们也可以通过点击菜单的方式完成 上述操作,步骤如下: Step1:在 STATA 主菜单中点击 “ Newdo-fileEditor ”图标; Step2:在第一步中弹出的“ Do-fileEditor”窗口中点击“O pen”图标,然后到D:\stata12\ado\personal\PX_aufe文件夹下,双击“ xB01_Panel_Data”文件即可打开之。 B:在练习之前,请先执行如下命令,以便进入第一讲所在目录,本讲中使用的所有数 据文件和相关文档都存放于该目录下。请选中下图中第 34-37 行的命令,点击菜单条中第二行中 带有蓝色阴影的按钮( ExecuteSelection(do) ,快捷键为 Ctrl+D )。

stata上机实验操作

第六章第二题: 1. 建立完成的教育年数(ED )对到最近大学的距离(Dist )的回归: . reg ed dist, robust 斜率估计值是:-0.073 2. reg ed dist bytest female black hispanic incomehi ownhome dadcoll cue80 stwmfg80,robust Dist 对ED 的效应估计是:-0.032 3. 系数下降50%,存在很大差异,(1)中回归存在遗漏变量偏差 4. di e(r2_a)(可看到调整后的R2) 第一问中=0.0074 调整的2R =0.00718796 _cons 13.95586 .0378112 369.09 0.000 13.88172 14.02999 dist -.0733727 .0134334 -5.46 0.000 -.0997101 -.0470353 ed Coef. Std. Err. t P>|t| [95% Conf. Interval] Robust Root MSE = 1.8074 R-squared = 0.0074 Prob > F = 0.0000 F( 1, 3794) = 29.83 Linear regression Number of obs = 3796 . reg ed dist , robust 2R

第二问中=0.2788 2R = 0.27693235 可以得到第二问中的拟合效果要优于第一问。 第二问中相似的原因:因为n 很大。 5. Dadcoll 父亲有没有念过大学: 系数为正(0.6961324)衡量父亲念过大学的学生接受的教育年数平均比其父亲没有年过大学的学生多。 .0232052 -.0517777 1)原因:这些参数在一定程度上构成了上大学的机会成本。 2)它们的系数估计值的符号应该如此。当Stwmfg80增加时,放弃的工资增加,所以大学入学率降低了;因而Stwmfg80的系数对应为负。 而当Cue80增加时,人们会发现找工作很困难,这降低上大学的机会成本,所以平均的大学入学率就会增加;因而Cue80的系数对应为正。 7.带入计算即可(14.75) 8.同7.(14.69) 第七章第二题 1. . reg course_eval beauty,robust 95%置信区间见上表。 2. 2R _cons 3.998272 .0253493 157.73 0.000 3.948458 4.048087 beauty .1330014 .0323189 4.12 0.000 .0694908 .1965121 course_eval Coef. Std. Err. t P>|t| [95% Conf. Interval] Robust Root MSE = .54545 R-squared = 0.0357 Prob > F = 0.0000 F( 1, 461) = 16.94 Linear regression Number of obs = 463

STATA实用教程

文档收集于互联网,已重新整理排版.word版本可编辑,有帮助欢迎下载支持. 第一章接触STATA 小而功能强大;数据存储在内存中,运算速度快;语法简单,结果易读;可编程?cd [direction] /*调整默认目录,当路径中存在空格时要加引号*/ ?set memory [number]/*内存设定,默认单位为KB,可自定MB*/ ?exit /*退出*/ 第二章STATA命令 [prefix:]command[varlist] [=exp.] [if exp.] [using filename] [in range] [weigh:] [, options] 命令前缀命令变量串表达式条件式使用文件个案范围权重选项?var | var#-var## | var* /*表示单变量、多变量、以var开头的变量*/ ?in # | in -# | in #/## /*表示第#个、倒数第#个、从第#到第##个变量*/ ?help commandname/*帮助*/ 第三章使用STATA数据文件 一、读取数据 ?use filename [, clear] /*读取全部数据,选项clear表示清空内存*/ ?use var1 var#using filename /*将数据部分变量读进内存*/ ?use in #/## using filename /*将数据部分个案读进内存*/ ?use if var==# using filename /*将数据特定个案读进内存*/ ?use filename if var==# /*同上*/ 二、数据的标签与注释 ?label data “text”/*标签用于对数据整体的说明,这是贴标签的命令*/ 1文档来源为:从网络收集整理.word版本可编辑.

stata 中文教程

Stata介绍 作为流行的计量经济学软件,Stata的功能十分地全面和强大。可以毫不夸张地说,凡是成熟的计量经济学方法,在Stata中都可以找到相应的命令,而这些命令都有许多选项以适应不同的环境或满足不同的需要。即使是最详细的Stata手册,也难免有遗珠之憾,更何况本文仅是一个粗浅的介绍。掌握Stata最好的办法是在实践中学习:Stata 本身提供了非常强大的帮助系统,并且关于Stata的书籍和网络资源都不少。 本文拟根据如下顺序介绍Stata: 1.界面; 2.文件和数据; 3.语法和命令; 4.数据管理; 5.描述统计; 6.画图; 7.回归和回归分析; 8.常用命令。 第3和第4部分是最体现Stata灵活性的地方,也是应用Stata的基础。第5和第6部分介绍如何用Stata完成基本的统计功能。Stata的功能很多,比如回归,曲线拟合,生存分析,主成分分析,因子分析,聚类分析,时间序列分析等等。但回归无疑是其中最重要的功能。第7部分介绍如何用Stata作线性回归和Logistic回归。本文第2和第3部分包含了作者的观点,难免有偏颇之处。其余部分主要来自文献的归纳和总结。限于水平有限,错误在所难免,敬请原谅。

1.界面 图1 Stata界面 Stata有4个窗口: 1. Stata Command(右下)用于向Stata输入命令; 2. Stata Results(右上)用于显示运行结果; 3. Review(左上)记录使用过的命令; 4. Variables(左下)显示当前memory中的所有变量。 窗口上方是工具栏,其上的按钮依次为(从左到右)Open, Save, Print Graph/Print Log, Log Start/Stop/Suspend, Bring Log to Front, Bring Graph to Front, Do-file Editor, Data Editor, Data Browser, Clear –more- condition, Break。其中常用的有Open, Save, Do-file Editor, Data Editor和Data Browser(图1中已用圆圈标出)。它们的使用办法将在下文介绍。 工具栏上方是菜单栏。其中最常用的是Help菜单。 界面左下角显示了Stata的默认路径。Stata使用的数据文件一般存放在该路径下。

Stata上机实验笔记

Stata上机实验 Stata 统计软件包是目前世界上最著名的统计软件之一,国外将Stata与SAS、SPSS 一起被并称为三大权威软件。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分析工作。 Stata有什么优势? 1。Stata 的命令语句极为简洁明快,易学易记。 2。强大的帮助信息。 本地帮助 Help 命令名 在线帮助Findit 命令名 3。始终处于计量经济学和统计学的最前沿。许多Stata 程序员会针对计量经济学发展编写一些最新的程序(ADO 文件), Stata提供了严谨、简练而灵活的程序语句,用户可以编写自己的命令和函数,同时可随时到Stata 网站寻找并下载最新的升级文件。下载后可以直接使用,也可以自行修改、添加功能。(例如当前流行的面板单位根和面板门限数据,均可以安装下载使用) 不同版本对样本容量、变量个数、矩阵阶数、宏的字符长度等有着不同的限制。以SE版为例,其最大变量个数为32767,最大字符长度为244字节,最大矩阵阶数为11000(即11000 11000)。Stata默认值为:最大变量个数为5000,最大矩阵阶数为400,最大内存为10兆。如果用户需要更多的内存或者更多的变量,可以在命令栏输入如下命令进行扩展。 set maxvar 5000 <最大变量个数5000个。> set memory 50m <占内存50兆。> 最重要的有三类文件 1。文件名.dta 数据文件 2。文件名.do 命令文件 3。文件名.ado 程序文件 如果不加改变,安装时Stata会将系统程序安装到: C:\Program file\stata10 中。 将所用系统自带的一些系统数据、应用程序、帮助文件安装到 C:\Program file\stata10\ado\base 中 将所有升级程序安装到: C:\Program file\stata10\ado\update 中 1。所有的系统自带数据可以利用sysuse命令打开。 2。Use命令只能打开 C:\data 或者 D:\data 中的数据。 3。如果需要打开其他文件夹的数据,必须改变目录(例如,将自己的数据放入D:\abc) cd "D:\abc” 或者直接 file------open 特别注意:1。Stata的命令区分大小写。

STATA实用教程

S T A T A实用教程-CAL-FENGHAI.-(YICAI)-Company One1

第一章接触STATA 小而功能强大;数据存储在内存中,运算速度快;语法简单,结果易读;可编程cd [direction] /*调整默认目录,当路径中存在空格时要加引号*/ set memory [number] /*内存设定,默认单位为KB,可自定MB*/ exit /*退出*/ 第二章 STATA命令 [prefix:]command[varlist] [=exp.] [if exp.] [using filename] [in range] [weigh:] [, options]命令前缀命令变量串表达式条件式使用文件个案范围权重选项var | var#-var## | var* /*表示单变量、多变量、以var开头的变量*/ in # | in -# | in #/## /*表示第#个、倒数第#个、从第#到第##个变量*/ help commandname/*帮助*/ 第三章使用STATA数据文件 一、读取数据 use filename [, clear] /*读取全部数据,选项clear表示清空内存*/ use var1 var# using filename /*将数据部分变量读进内存*/ use in #/## using filename /*将数据部分个案读进内存*/ use if var==# using filename /*将数据特定个案读进内存*/ use filename if var==# /*同上*/ 二、数据的标签与注释 label data “text” /*标签用于对数据整体的说明,这是贴标签的命令*/ notes:“text” /*注释用于记录操作过程,这是写注释的命令*/

stata入门教程

Stata 快速入门 1、Stata的窗口 ?在最上方有一排菜单,即“File Edit Data Graphics Statistics User Window Help”。?左上“Review”(历史窗口):此窗口记录着自启动Stata以来执行过的命令。?右上“Variables”(变量窗口):此窗口记录着目前Stata内存中的所有变量。?正上方“Results”(结果窗口):此窗口显示执行Stata命令后的输出结果。 ?正下方“Command”(命令窗口):在此窗口输入想要执行的Stata命令。 2、将数据导入Stata ?打开Stata软件后,点击Data Editor(Edit)图标(也可以点击菜单“Window”→“Data Editor”),即可打开一个类似Excel的空白表格。 ?用Excel打开文件“nerlove.xls”,复制文件中的所有数据,并粘贴到Data Editor 中。 ?导入数据的另一方法是,点击菜单“File”→“Import”,然后导入各种格式的数据。但这种方法有时不如直接从Excel表中粘贴数据来得方便直观。 3、变量窗口 ?关闭Data Editor后,即会看到右上方的“Variables”窗口出现了5个变量:?分别为tc(total cost,总成本),q(total output, 总产量),pl(price of labor,小时工资率),pf(price of fuel,燃料价格),与pk(user cost of capital,资本的租赁价格。 4、存为dta数据文件 ?此时,可以点击Save图标(也可以点击菜单“File”→“Save”),将数据存为Stata格式的文件(扩展名为dta),比如nerlove.dta。 ?以后就可以用Stata直接打开这个数据集了(不需要再从Excel表中粘贴过来)。 5、打开dta数据文件 打开的方式有三种: 1.点击Open图标(也可以点击菜单“File”→“Open”),然后寻找要打开的dta 文件的位置。 2.直接双击想要打开的dta文件 3.在命令窗口输入以下命令(假设文件在E盘的根目录)并回车(按Enter键)

Stata教程(免费)

第一章 Stata 概貌 §1.1 Stata的功能、特点和背景 Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4,1.5,……及2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。 Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。 一、 Stata的数据管理能力 1.Stata的数据管理空间受计算机的操作系统和计算机扩展内存的影响。对640k内存的微机,3.1 版本的Stata可以管理2400个记录×99个变量,并随计算机扩展内存的增加而增加;对4.0的WINDOWS版本,Stata可以管理4800个记录×99个变量;对WINDOWS 95下的5.0版本,可根据计算机的配置情况设置变量数和记录数,如32M扩展内存的计算机,可处理2千万个数据。变量数和记录数可以互相交易(trade),即减少记录数可以增加变量数,减少变量数可以增加记录数。 2.可以将分组变量转换成指示变量(哑变量),将字符串变量映射成数字代码。 3.可以对数据文件进行横向和纵向链接,可以将行数据转为列数据,或反之。 4.可以恢复、修改执行过的命令。 5.可以利用数值函数或字符串函数产生新变量。 6.可以从键盘或磁盘读入数据。 二、 Stata的统计功能 Stata的统计功能很强,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,如Cox比例风险回归,指数与Weibull回归,多类结果与有序结果的logistic回归,Poisson回归、负二项回归及广义负二项回归,随机效应模型等。具体说,Stata具有如下统计分析能力: 1.数值变量资料的一般分析:参数估计,t检验,单因素和多因素的方差分析,协方差分析,交互 效应模型,平衡和非平衡设计,嵌套设计,随机效应,多个均数的两两比较,缺项数据的处理,方差齐性检验,正态性检验,变量变换等。 2.分类资料的一般分析:参数估计,列联表分析( 2检验,列联系数,确切概率),流行病学表格分 析等。 3.等级资料的一般分析:秩变换,秩和检验,秩相关等。 4.相关与回归分析:简单相关,偏相关,典型相关,以及多达数十种的回归分析方法,如多元线性 回归,逐步回归,加权回归,稳键回归,二阶段回归,百分位数(中位数)回归,残差分析、强影响点分析,曲线拟合,随机效应的线性回归模型,等。 5.危险度分析:条件和非条件的logistic回归,多类结果与有序结果的logistic回归,Probit回 归,及其他广义线性模型,随机效应的logistic回归,随机效应的Poisson回归,等。 6.生存分析:基线生存曲线的估计、相对危险度的估计,Kaplan-Meier生存曲线、寿命表分析,对 数秩检验,Mantel-Haenszel检验,Wilcoxon-Gehan检验,Cox比例风险模型,正态截尾及Tobit 回归,指数回归和Weibull回归,等。 7.其它方法:质量控制,整群抽样的设计效率,诊断试验评价,kappa,等。 三、 Stata的作图功能 Stata的作图模块,主要提供如下八种基本图形的制作: 直方图(histogram),条形图(bar), 百分条图(oneway),百分圆图(pie),散点图(twoway),散点图矩阵(matrix),星形图(star),分位数图。这些图

计量经济学stata上机命令整理

计量经济学上机命令整理 实验一 edit 打开数据编辑器 browse 打开数据浏览器 rename 对变量重新命名 label save describe 对数据集简要描述 sort 排序例如:list in -10/-1 list 显示变量的数值 Generate 缩小:gen 生成新的变量后面可以接if条件句 Replace 替换append 覆盖 Summarize 缩写:su 总结后面可以接if条件句 实验二 twoway (scatter y x)(connected ey_x x) 在该散点图上,做出条件均值点 sc y x||lfit y x 画出线图和散点图 Reg y x 做出回归 Rename ** y **指原变量名用于修改变量名字 graph twoway scatter y x 画出y x 的二维散点图 Line y x 做出y x 的线条图 egen Ey_x=mean(y),by(x) 求在同一x水平下,求y的均值 实验三 Regress y x1 x2 ........做多元回归 Precict e,re 预测方差 Sort e 按照方差排序 Cor y x 测试y与x的相关程度 Pwcorr y x 也是测试y与x的相关程度 Set obs 90 (90为任意一个数字),增加一个或者多个样本值 Replace x=980 in 90 为第90个样本值赋值(980为任意一个数字) Predict yhat 预测y的估计值 Display invttail(n,p) n为自由度;p为概率(一般为0.025)。用来求t分布的t 值 Display ttail(n,t)知道t值求T

stata命令大全(全)

*********面板数据计量分析与软件实现********* 说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。 *----------面板数据模型 * 1.静态面板模型:FE 和RE * 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验 * 4.动态面板模型(DID-GMM,SYS-GMM) * 5.面板随机前沿模型 * 6.面板协整分析(FMOLS,DOLS) *** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。 * 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA) *** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。 * 空间计量分析:SLM模型与SEM模型 *说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。* --------------------------------- * --------一、常用的数据处理与作图----------- * --------------------------------- * 指定面板格式 xtset id year (id为截面名称,year为时间名称) xtdes /*数据特征*/ xtsum logy h /*数据统计特征*/ sum logy h /*数据统计特征*/ *添加标签或更改变量名 label var h "人力资本" rename h hum *排序 sort id year /*是以STATA面板数据格式出现*/ sort year id /*是以DEA格式出现*/ *删除个别年份或省份 drop if year<1992 drop if id==2 /*注意用==*/ *如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令) egen year_new=group(year) xtset id year_new **保留变量或保留观测值 keep inv /*删除变量*/ **或 keep if year==2000 **排序 sort id year /*是以STATA面板数据格式出现 sort year id /*是以DEA格式出现 **长数据和宽数据的转换 *长>>>宽数据 reshape wide logy,i(id) j(year) *宽>>>长数据

5分钟搞定Stata面板数据分析

【原创】5分钟搞定Stata面板数据分析简易教程ver2.0作者:张达 5分钟搞定Stata面板数据分析 简易教程 步骤一:导入数据 原始表如下, 数据请以时间(1998,1999,2000,2001??)为横轴,样本名(北京,天津,河北??)为纵轴 将中文地名替换为数字。

注意:表中不能有中文字符,否则会出现错误。面板数据中不能有空值。 去除年份的一行,将其余部分复制到stata的data editor中,或保存为csv格式。

打开stata,调用数据。 方法一:直接复制到data editor中。 方法二:使用口令:insheet using 文件路径 调用例如:insheet using C:\STUDY\paper\taxi.csv 其中csv格式可用excel的“另存为”导出 如图:

步骤二:调整格式 首先请将代表样本的var1重命名 口令:rename var1 样本名 例如:rename var1 province 也可直接在var1处双击,在弹出的窗口中修改:

接下来将数据转化为面板数据的格式 口令:reshape long var, i(样本名) 例如:reshape long var, i(province) 其中var代表的是所有的年份(var2,var3,var4??) 转化后的格式如图: 转化成功后继续重命名,其中_j 这里代表原始表中的年份,var代表该变量的名称口令例如: rename _j year rename var taxi 也可直接在需要修改的名称处双击,在弹出的窗口中修改 如图:

STATA初级视频教程说明书(连玉君)

STATA初级视频教程(2010版) 使用说明 连玉君 (中山大学 岭南学院 金融系) arlionn@https://www.sodocs.net/doc/e616897037.html, 目 录 1 课程简介 (1) 2 课程特色 (2) 3 课程配套资料 (2) 4 配套资料的使用方法 (2) 5 讨论和建议 (4) 6 讲师介绍 (4) 7 报名咨询 (4) 8 培训优惠 (4) 附录A:STATA初级视频目录(时间节点) (5) 第一讲STATA简介 (5) 第二讲数据处理 (9) 第三讲Stata绘图 (13) 第四讲矩阵操作 (16) 第五讲STATA 编程初步 (18) 附录B:STATA高级视频教程简介 (20)

工欲善其事,必先利其器。无论是经济学、管理学还是社会科学的其他学科,定量分析都变得越来越重要了。作为一个较为年轻的计量软件,STATA自1985年问世以来,以其在数据处理、绘图、回归分析等方面的出色表现,赢得了越来越多的青睐。然而,相比于SPSS、Eviews等以菜单操作为主的软件,以命令操作见长的STATA软件门槛相对较高。由于进入国内的时间较短,相关的参考资料甚为有限,而STATA公司提供的近10000页的全英文使用手册更是令多数初学者望而生畏。这也成为阻碍多数国内同仁学习这款功能强大的计量软件的主要障碍。 鉴于上述情况,我们分别于2007年11月和2008年10月推出了“STATA初级视频教程”和“STATA高级视频教程”,内容涉及STATA的基本操作、数据处理、绘图、编程、常用计量模型的估计,以及Bootstrap和Monte Carlo模拟等内容。视频教学的直观性,加之课程的实用性导向,使这两套教程获得了广泛的好评。承蒙广大STATA视频教程学员的积极参与和反馈,我在过去两年多的时间里收集到了100余条修改建议,历经半年多的制作,最终得以为大家呈现这套新版STATA初级视频——“STATA初级视频教程(2010版)”。 STATA初级视频教程(2010版)共5讲,包含36个视频文件,总计40余个学时。内容涉及:STATA入门、数据处理、绘图、矩阵以及编程。内容简介如下(详细目录见附录A):第1讲从整体上介绍了STATA的基本架构,以便使学员在最短的时间内掌握STATA的精髓,包括:数据的导入导出、执行命令、修改和查验资料、log文件和do文件的使用、STATA与Word(Excel、LaTeX)等软件的完美结合,以及STATA常用设定等内容。 第2讲通过大量的实例,介绍了各种数据处理技巧,是本课程最为核心、最有特色的内容。主要包括:复杂变量的创建;分位数;重复样本值、缺漏值和离群值的处理;资料的合并、追加和重新组合;文字变量、类别变量的处理;时间序列和面板资料的处理;以及数据的查验和对比等内容。这些内容的学习将大幅提高学员的数据处理能力。 第3讲介绍STATA绘图。为了达到举一反三的效果,我先从整体上介绍STATA绘图的基本知识,进而将绘图命令拆解成8类选项和5类元素,并最终通过40余个实例全面介绍了15类常用图形的绘制方法。 第4讲介绍STATA矩阵操作,包括矩阵的定义和管理、矩阵运算、矩阵解析等四个主题,为后续学习STATA编程知识奠定了扎实的基础。 第5讲介绍STATA编程的基本知识,包括:程序的定义和调用、单值、暂时性物件(暂元、暂时性变量、暂时性文件、暂时性矩阵等)、循环语句、条件语句,以及STATA返回值的引用等内容。通过本讲的学习,学员将能够通过独立编写STATA程序来提高数据处理和模型估计的效率,为后续学习STATA高级程序奠定基础。 以上各讲都以专题的形式进行讲解,其中不但包含了STATA官方提供的常用命令,还包含了大量外部命令(520多个),为学员提供了强有力的实证分析工具。

Stata软件基本操作和数据分析入门

Stata软件基本操作和数据分析入门 第一讲Stata操作入门 张文彤赵耐青 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。 2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

相关主题