搜档网
当前位置:搜档网 › 第一章_STATA入门

第一章_STATA入门

第一章_STATA入门
第一章_STATA入门

第一章STATA基础

Stata统计软件包是目前世界上最著名的统计软件之一,与SAS、SPSS一起被并称为三大权威软件。它广泛的应用于经济、教育、人口、政治学、社会学、医学、药学、工矿、农林等学科领域,同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分析工作。其功能非常强大且操作简单、使用灵活、易学易用、运行速度极快,在许多方面别具一格。

Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。尽管它也提供了窗口菜单式的操作方式,但强烈建议大家坚持使用命令行/程序操作方式,很快你就会体会到使用程序和命令方式所带来的那种随心所欲地处理和分析数据的快感。

Stata的另一个特点是他的许多高级统计模块均是编程人员用宏语言写成的程序文件(ado文件),这些文件可以自行修改、添加和下载。用户可随时到Stata 网站寻找并下载最新的升级文件。这一特点使得STATA始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。

STATA由美国计算机资源中心(Computer Resource Center)研制,现为STATA公司的产品。从1985至2009的二十多年时间里,已连续推出1.1,1.2,…,7.0,8.0,9.0,10.0等多个版本。我们将要学习的是9.2版本。

一、入门

(一)安装、启用和退出

安装

(1) https://www.sodocs.net/doc/63842915.html,/bbs/dispbbs.asp?boardID=67&ID=97705&page=2 上有stata9.rar下载,但是做正式的论文或工作还是应该尽量用正版软件。

(2)将其解压到D:/stata9。

(3)点击setup安装>>改变安装路径到D:/stata9>>选择Stata/SE版本。

启用和退出

(1) 程序→Stata,即可进入Stata,启动后出现文件对话框,要求输入注册单位和密码等,一般在文件sn.txt中。

(2)打开D:/stata9>>点击wsestata>>打开sn文件找到注册信息,进行注册(注意用户名和单位要多于5个英文字符)。完成注册后,出现如下画面。

(3)调整和保存界面设置:拖动各个窗口,将其调整为如下合适的格式,然后选择Prefs>>save windowing preference

Stata的界面主要是由四个窗口构成:

结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。

命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

命令回顾窗口:即review窗口,位于界面左上方,所有执行过的命令会依次在该窗口中列出,选中某一行单击后命令即被自动拷贝到命令窗口中;如果需要重复执行,用鼠标双击相应的命令行即可。

变量名窗口:位于界面左下方,列出当前数据集中的所有变量名称,。

除以上四个默认打开的窗口外,在Stata中还有数据编辑窗口、程序文件编辑窗口、帮助窗口、绘图窗口、Log窗口等,如果需要使用,可以用Window或Help菜单将其打开。

(4)点击右上角的X号退出。

建议安装路径为:D: /stata9。一般不要安装在C盘下,更不要直接放在桌面上。这是因为我们通常会将数据和程序存储于安装目录下,如果安装c 盘,一旦计算机出现意外故障,很可能导致我们存储在上面的数据无法恢复。

(二)寻求帮助与网络资源

获取帮助的命令help

有多种途径可以获得STATA 的帮助,主要的途径有三个:手册、STATA 自带帮助和网络帮助。对于多数人而言手册是可望不可及的,因为一套完整的手册有10 余本,而且价格昂贵。但有了STATA 的自带帮助,我们可以在记住极少量的基本命令的基础上(见1.2.10),方便地运用STATA命令。

help

显示出STATA所有帮助内容的目录结构。

如果输入具体的命令,则只显示该命令的帮助,如

help summarize

也可以通过菜单式的点选方式获得帮助: Help>>stata command…在弹出的对话框中输入:summarize然后回车,得到与help summarize同样的结果。

使用帮助的小窍门:先看命令描述(Description)部分,然后直接看帮助文件后面的命令示例(Examples),将命令示例复制到命令窗口,执行,看看执行结果,体会命令的用法。

主要的网站资源

STATA公司官方网站https://www.sodocs.net/doc/63842915.html,

STATA资源链接https://www.sodocs.net/doc/63842915.html,/links/resources.html

STATA出版社https://www.sodocs.net/doc/63842915.html,

STATA电子杂志https://www.sodocs.net/doc/63842915.html,/

STATA技术公告版https://www.sodocs.net/doc/63842915.html,/support/faqs/

Bosten College的资源:

https://www.sodocs.net/doc/63842915.html,/gstat/docs/gsafaq.html https://www.sodocs.net/doc/63842915.html,/gstat/docs/gsafaq.html

UCLA的资源: 错误!超链接引用无效。

https://www.sodocs.net/doc/63842915.html,/stat/stata/examples/default.htm

(三)一个例子

程序示例:请将下面的程序复制到程序编辑器,然后执行之。“//”将注释语句与命令分开

*============================chp1.do====================================

clear //将STATA置于初始状态

sysuse auto //打开数据文件auto.dta

sum price weight//求价格和重量的观察值个数、均值、标准差、最小值和最大值

scatter price weight //绘价格和重量的散点图

reg price weight //价格和重量的回归

scatter price weight || lfit price weight //绘价格和重量的散点图与拟合图

*============================end===================================

(四)错误提示

学会从STATA的错误提示中明白错在哪里非常重要,在命令窗口键入

list myvar

上述命令试图显示变量myvar,但是结果窗口仅出现如下的显示

variable myvar not found

r(111);

红色信息表明,没有找到一个叫myvar的变量,的确,我们的数据中并没有这个变量。

红色信息下面还有一个天兰色的r(111),用鼠标点击,即可弹进一个帮助信息框,给出错误的更详尽解释。

再比如,误把sum写成了sun

sun

unrecognized command: sun

r(199);

显示说不认识sun这个命令。

二、命令语句

(一)命令语句的格式

STATA语句在固定的命令格式,有九个组成部分。

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]

注:[ ]表示可有可无的项,显然只有command是必不可少的,下面结合例子分项来讲解命令的各个组成部分。

(二)命令COMMAND

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] sysuse auto, clear//打开美国汽车数据文件auto.dta,后面的clear表示先

清除内存中可能存在的数据集

summarize /*很多命令可单独使用,单独使用时,一般是对所有变

量进行操作,等价于后面加上代表所有变量的_all。*/ summarize _all //注意到该命令输出结果与上一个命令完全一样

sum //与前一命令等价,sum为summarize的略写

su // su是summarize的最简化略写,不能再简化为s

s //简写前提是不引起混淆。执行这个命令将出现错误信息unrecognized command: s

变量的省略规则

只要不引起歧义,命令可以尽量只写前几个字母。如summarize只需要前两个字母su;而list只需要写第一个字母l。在帮助文件中,命令下面有小划线,该线表明了命令可以省略到什么程度。如

list [varlist] [if] [in] [, options]

summarize [varlist] [if] [in] [weight] [, options]

(三)变量VARLIST

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] varlist表示一个变量,或者多个变量,多个变量之间用空格隔开。

su price //求价格的观察值个数,平均值,方差,最小值和最大值

su p //变量和命令均可略写,注意到两个结果完全一样

su t //分数据中有两个变量的开首字母为t(trunk和turn),

所以STATA认为t为模糊的省略。

m ambiguous abbreviation /红色为错误信息

su tr tu //求trunk和turn变量的五数概略统计

su t* //等价于前一命令,以t开首的所有变量可用t*来表示。

变量命名规则

除以下字符不能用作变量名外,任何字母、字母与数字(单独的数字也不允许)组合均可用做变量名:

_all _b byte _coef _cons double float if in int long _n _N _pi _pred _rc _se _skip using with

基本要求如下:

_ 第一个字元可以是英文字母或, 但不能是数字;

_ 最多只能包括32 个英文字母、数字或下划线;

_ 由于STATA 保留了很多以“_ “开头的内部变量,所以最好不要用为第一个字元来定义变量。

(四)分类操作BY

[bysort varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]

先看下面的例子,在汽车数据集中,有一个变量foreign,该变量表示某个车是进口车(1 Foreign)还是国产车(0 Domestic)。如果需要分别知道国产车和进口车的价格和重量,可以采用分类操作来求得,

bysort foreign: sum price weight

(五)赋值及运算=EXP

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]该选项主要用于给新变量赋值或替换原变量的值

例:生成一个新的价格变量nprice,该变量的取值为原汽车价格变量price的基础上涨10元

g nprice=price+10//生成新变量nprice,其值为price+10

l price nprice //比较一下两个变量的取值

/*上面的命令generate(略写为gen) 生成一个新的变量,新变量的变量名为nprice,新的价格在原价格的基础上均增加了10元。

replace nprice=nprice-10 /*命令replace则直接改变原变量的赋值,

nprice调减后与price变量取值相等*/ l price nprice //再比较一下两个变量,相等。

(六)条件表达式IF

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]

例:查看10000元以上的车,则加入筛选条件if pri>15000

l make price if pri>10000

(七)范围筛选IN

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] 计算前5台车的平均价格

su price in 1/5

注意“1/5”中,斜杠不是除号,而是从1到5的意思,即1,2,3,4,5。

(八)加权WEIGHT

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]

例:下表是某次考试的成绩及该成绩的人数统计,第一列score为分数,第二列num为该分数段的人数,求平均分数。

score num

80 23

70 16

60 10

操作:

先将上面的表格复制,然后进入STATA,执行如下命令

clear //清空STATA

edit

然后把光标定位在表格的第一行第一列,点右键,选择粘贴(paste),上表数据便被复制到STATA中,退出数据编辑器。

su score//思考:得到的结果是640分及以上考生的平均分吗?

简单地使用sum命令得到的平均成绩显然是不正确的,因为各个分数下的人数是不一样的,正确的计算需要加权,加权的办法是

su score[w=num] /*加权计算,比较该结果与sum score的区别,

实际上,不用权重选项时,相当于权重相等。*/

su score[w=n] //w为weight的略写,n为num的简写,两命令等价

(九)其他可选项,OPTIONS

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]

许多命令都有一些可选项,例如,我们不仅要计算平均成绩,还想知道成绩的中值,方差,偏度和峰度等*/

su score, detail

su score, d //d为detail的略写,两个命令完全等价

注意,结果中显示了1%,5%等分位数,意思是把变量从小到大排序,第1%位置处的取值是多少,第10%的位置上的取值是多少。显然,50%位置处的取值是中位数。此外,加了detail选项后,还得到最小的前5个数,最大的5个数,以及峰度和偏度等。

*再如,list命令也有一些可选项

sysuse auto, clear

l price in 1/30, sep(10)//每10个观察值之间加一横线

l price in 10/30, sep(2) //每2个观察值之间加一横线

l price, nohead//不要表头

三、运算符

STATA共有四种运算,分别是代数运算、字符运算、关系运算和逻辑运算。

表1-1:运算符一览表

代数运算逻辑运算比较关系+ 加!不> 大于

- 减~ 不< 小于

* 乘| 或>= 不小于

/ 除& 和<= 不大于

^ 指数== 等于sqrt() 开方!= 不等于

~= 不等于~= 不等于

+字符相加

(一)运算的优先序

!(或~),^,-(负号),/,*,-(减),+,!=(或~=),>,<,<=,>=,==,&,|

当忘记或者无法确定优先序的时候,最好用括号将优先序表达出来,在最里层括号中的表示式将被优先执行。

(二)代数运算

包括加(+)、减(-)、乘(*)、除(/),幂(^)和负数(-),指(exp)、对(ln)和开方(sqrt),当遇到缺失值或者运算不可行时(比如除数为零)均会得到缺失值。

di–(4+2^(4-2))/(2*4) //di是display命令的略写,表示显示结果

di 5+9 //加

di 4-2 //减

di 3*5//乘

di 8/2 //除

di 2^3 //2的立方,输出8

di exp(1) //表示e1,输出2.7182818

di ln(1) //以e为底的对数,输出0

di sqrt(4) //4开方,输出2

di –(2+3^(2-3))/sqrt(2*3) //括号运算优先,想一想,结果应为多少?

例:求下式的值,若x=4,y=2,显然,经过心算,应该为:-1

xy

y x y

x -+-

实际上,更多的情形是两个或多个变量的直接运算。比如,将进口车的价格都增加100元(可能是关税),而国产车不变。

sysuse auto, clear

g nprice=price+foreign*100 /*由于foreign 的取值为0和1,因此只有

进口车的价格增加100元*/

l nprice price foreign

(三)关系运算

关系运算包括大于、小于、等于;不等于、不小于、不大于等多种比较关系。特别要注意到STATA 中的等于符号为“==”,是两个等号连写在一起,不同于赋值时用的单个等号“=”。

di 3<5 //输出结果为1,意味着3小于5为真 di 3>5 //输出的结果为0,意味着3大于5为假

di 3==4 //输出的结果为0,意味着3不等于4,注意这里的等号为两个

当数据中含有缺失值的时候需要特别小心,因为系统缺失值大于任何一个数据,利用这一点,我们可以使用条件语句排除缺失值。

例:将年龄分组为65岁以下和65岁及以上两组,缺失值显然不能包括在任何一组中。

age 38 . 65 42 18 80

clear

edit

将上述数据复制到STATA中,然后退出数据编辑器。

g agegrp1=(age>=65)

生成的数据中,将缺失值视为65岁以上分在了高龄组,这是错误的

g agegrp2=(age>=65) if age<.

生成的数据中,将缺失值排除在外,正确!这一命令常被用于生成虚拟变量。

g agegrp3=(age==65) if age<. //仅判断是否恰好为65岁

l //比较agegrp1、agegrp2和agegrp3的差异,体会if age<.的作用。Age Agegrp1 Agegrp2 Agegrp3

38 0 0 0

. 1 . .

65 1 1 1

42 0 0 0

18 0 0 0

80 1 1 0

(四)逻辑运算

逻辑运算包括非(!),和(&)、或(|)三种,主要用于条件语句中。

例:列示出价格大于10000元的任何车,或者小于4000元的车。

sysuse auto, clear

l price foreign if price>10000 | price<4000

四、函数

(一)函数概览FUNCTION

函数只不过是一些编号的小程序,这些小程序会对数据按一定的规则进行处理,之后报告结果。实际上,谁也记不住这么多函数,因此,首先要学会查找函数的帮助,当记不住的时候,随时去查寻帮助。记住下面的命令才是最关键的。

help function

弹出来的对话框告诉我们,STATA包括八类函数,分别是数学函数,分布函数,随机数函数,字符函数,程序函数,日期函数,时间序列函数和矩阵函数。本章主要介绍数学函数和字符函数,其他函数将在后面相应的章节介绍。

表1-2:常用函数一览表

函数含义举例

exp(x) 指数exp(0)=1

int(x) 取整int(5.6) = 5, int(-5.2) = -5.

ln(x) 对数ln(1)=0

round(x) 四舍五入round(5.6)=6

sqrt(x) 开方sqrt(16)=4

sum(x) 求和

uniform() 均匀分布随机数第10讲将介绍

invnormal(uniform()) 标准正态分布随机数第11讲将介绍

real(s) 字符型转化为数值型

string(n) 数值型转化为字符型

Substr(“this”,2,2)=is

substr(s,n1,n2) 从S的第n1个字符开

始,截取n2个字符

_n 当前观察值的序号

_N 共有多少观察值

(二)数学函数MATH

三角函数,指数和对数函数

数学函数可以直接对数据进行运算,也可以对变量进行运算。

di sqrt(6+3)//先相加,再开方,输出3

di abs(-100) //求绝对值,输出100

di ln(exp(2)) //先求e2,再取对数,得到2

di _pi //_pi为圆周率,得到3.1415927

di cos(_pi)//_pi的余弦值,得到-1

数学函数可以直接对数据进行运算,也可以对变量进行运算。

clear

set obs 5//设定5个观察值

g x=_n//生成新变量x,取值为1,2,3,4,5

g y1=exp(x)//取指数

g y2=ln(x)//取对数

g y3=sin(exp(x) ) +cos(ln(x)) //取对数

l //显示刚生成的数据

取整

di int(3.49) //int()取整,不论后面的小数是什么,只取小数点前的数值

di int(3.51) //输出3

四舍五入

di round(3.49) //round()取整,四舍五入,结果为3

di round(3.51) //四舍五入,结果为4

di round(3.345,.1) //四舍五入到十分位,结果为3.3

di round(3.351,.01) //四舍五入到百分位,结果为3.35

对变量的操作

sysuse auto, clear

g nprice=price/10000 //将价格变到以万为单位

g nprice2=round(nprice,0.01) //四舍五入到百分位

l nprice* //比较结果

求和及求均值gen和egen

clear

set obs 5

g x=_n //生成新变量x, x的取值从1到5

g y=sum(x) //求列累积和

egen z=sum(x) //求列总和,注意比较y和Z的不同

egen r=rsum(x y z) //求x+y+z总和

egen rmin = rowmin(x y z) //求x y z这三个变量的最小值

egen rmax = rowmax(x y z) //求x y z这三个变量的最大值

l //注意比较y和z的不同。

egen avgx=mean(x) //求列均值

egen medx=median(x) //求列中值

egen stdx = std(x) //求变异系数cv i=(x i-mx)/s,注意s=Σ(x i-mx)2/(n-1)

其他

clear

set obs 100//设定100个观察值

g age=_n//生成一个假设的年龄变量age,依次取1,2,…,100

recode age (min/30=1) (30/60=2) (60/max=3),gen(agegrp)

*生成新的分组变量agegrp,当年龄age在30及以下时取值为1,30到60为2,60以上为3

(三)字符函数STRING

例:将美国汽车数据中汽车商标变量值简化为取前三个字母,得到一个新的变量make3

sysuse auto, clear

g str3 make3=substr(make,1,3) //取变量make的前三个字符赋给make3

l make*

五、分类操作

例:下列数据为家庭成员数据family.dta,其中hhid为家庭编码,age为家庭成员的年龄。将下表数据复制到STATA,然后另存为family.dta

Hhid age

1 86

1 42

1 36

1 57

1 28

2 42

2 5

2 40

要求:(1)生成一个新变量hhsize,该变量表示共有多少个家庭成员。(2)给每个家庭成员一个编码id。如第一个家庭的第一个成员编码为11;(3)按家庭生成一个全家成员平均年龄值mage。(4)对每个家庭,分别按年龄大小排序,然后生成一个家庭成员代码,即家庭内年龄最小的成员代码为1,年龄最大的家庭成员,代码为nid。

最后需要生成的数据集如下:

Hhid age hhsize id mage nid

1 28 5 15 49.8 1

1 36 5 13 49.8 2

1 4

2 5 12 49.8 3

1 57 5 14 49.8 4

1 86 5 11 49.8 5

2 5

3 22 29 1

2 40

3 23 29 2

2 42

3 21 29 3

请自己先思考,再参考如下操作:

将上表数据复制粘贴到STATA数据编辑器,然后执行下面的命令u family, clear

by hhid,sort :g hhsize=_N //得到家庭规模hhsize

by hhid,sort :g id=_n+hhid*10 //为家庭成员编码

by hhid,sort: egen mage=mean(age) //求平均年龄

sort hhid age//按户排序,在每个户内按年龄大小排序

by hhid: g nid=_n //在户内按年龄大小为家庭成员编码

另一个例子:

u family, clear

bysort hhid (age): g nid1=_n //括号中的变量age只排序,不参于分组。bysort hhid age: g nid2=_n // hhid 和ag e都既用来参与排序也分组

l //比较上面两个命令得到的不同结果

附:常用命令

?help 帮助

?search 网络寻求帮助

?cd 进入某路径

?set memory 20m 设置STATA的内存空间为20m

?clear 清空内存数据

?use 打开STATA格式的数据文件

?save 保存内存中的数据

?infile 导入数据

?insheet 导入数据

?append 将有相同结果的数据纵向拼接(观察值拼接)?merge 将两个数据文件横向拼接

?xpose 数据转置

?reshape 数据重整

?gen 生成新的数据

?egen 生成新的数据

?rename 变量重命令

?drop 删除变量或观察值

?keep 保留变量或观察值

?sort 对观察值按从小到大顺序重新排列?encode 数值型数据转换为字符型数据?decode 字符型数据转换为数值型数据?order 变量顺序的重新排列

?by 分类操作

?describe 总体展示数据情况

?codebook 展示数据库中的每个变量情况?list 列示内存中的数据

?count 报告共有多少观察值

?table 数据列表

?tabulate 联列表

?display 显示计算结果

?log 将输出结果存放入结果文件

STATA面板数据模型操作命令要点

STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 μβit +=x y it it ε αμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y=L.y /////// 产生一个滞后一期的新变量

gen F_y=F.y /////// 产生一个超前项的新变量 gen D_y=D.y /////// 产生一个一阶差分的新变量 gen D2_y=D2.y /////// 产生一个二阶差分的新变量 (二)模型的筛选和检验 ●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe 对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。 ●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量) (原假设:使用OLS混合模型) ●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0

可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型。 ●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验) 原假设:使用随机效应模型(个体效应与解释变量无关) 通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下: Step1:估计固定效应模型,存储估计结果 Step2:估计随机效应模型,存储估计结果 Step3:进行Hausman检验 ●qui xtreg sq cpi unem g se5 ln,fe est store fe qui xtreg sq cpi unem g se5 ln,re est store re hausman fe (或者更优的是hausman fe,sigmamore/ sigmaless) 可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。此时,需要采用工具变量法和是使用固定效应模型。

最新Stata软件基本操作和数据分析入门

Stata软件基本操作和数据分析入门 第一讲Stata操作入门 张文彤赵耐青 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。 2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

[推荐] stata基本操作汇总常用命令

[推荐] Stata基本操作汇总——常用命令 help和search都是查找帮助文件的命令,它们之间的 区别在于help用于查找精确的命令名,而search是模糊查找。 如果你知道某个命令的名字,并且想知道它的具体使用方法,只须在stata的命令行窗口中输入help空格加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部 内容。如果你想知道在stata下做某个估计或某种计算,而 不知道具体该如何实现,就需要用search命令了。使用的 方法和help类似,只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名 和链接列表。在列表中寻找最相关的内容,点击后在弹出的查看窗口中会给出相关的帮助文件。耐心寻找,反复实验,通常可以较快地找到你需要的内容.下面该正式处理数据了。我的处理数据经验是最好能用stata的do文件编辑器记下你做过的工作。因为很少有一项实证研究能够一次完成,所以,当你下次继续工作时。能够重复前面的工作是非常重要的。有时因为一些细小的不同,你会发现无法复制原先的结果了。这时如果有记录下以往工作的do文件将把你从地狱带到天堂。因为你不必一遍又一遍地试图重现做过的工作。在stata 窗口上部的工具栏中有个孤立的小按钮,把鼠标放上去会出

现“bring do-file editor to front”,点击它就会出现do文件编 辑器。 为了使do文件能够顺利工作,一般需要编辑do文件的“头”和“尾”。这里给出我使用的“头”和“尾”。capture clear (清空内存中的数据)capture log close (关闭所有 打开的日志文件)set more off (关闭more选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出。)set matsize 4000 (设置矩阵的最大阶数。我用的是不是太大了?)cd D: (进入数据所在的盘符和文件夹。和dos的命令行很相似。)log using (文件名).log,replace (打开日志文件,并更新。日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。)use (文件名),clear (打开数据文件。)(文件内容)log close (关闭日志文件。)exit,clear (退出并清空内存中的数据。) 实证工作中往往接触的是原始数据。这些数据没有经过整理,有一些错漏和不统一的地方。比如,对某个变量的缺失观察值,有时会用点,有时会用-9,-99等来表示。回归时如果 使用这些观察,往往得出非常错误的结果。还有,在不同的数据文件中,相同变量有时使用的变量名不同,会给合并数

5分钟速学stata面板数据回归(初学者超实用!)

5分钟速学stata面板数据回归(超实用!) 第一步:编辑数据。 面板数据的回归,比如该回归模型为:Y it=β0+β1X1it+β2X2it+β3X3it+εt,在stata中进行回归,需要先将各个变量的数据逐个编辑好,该模型中共有Y X1 X2 X3三个变量,那么先从Y的数据开始编辑,将变量Y的面板数据编辑到stata软件中,较方便的做法是,将excel的数据直接复制到stata软件的数据编辑框中,而excel中的数据需要如下图编辑: 从数据的第二行开始选中20个样本数据,如图:

直接复制粘贴至stata中的data editor中,如图: 第二步:格式调整。 首先,请将代表样本的var1Y变量数据是选20个省份5年的数据为样本,那么口令为rename var1 province 。例如:本例中的Y变量数据编辑接下来需要输入口令为reshape long var,i(province) 其中,var代表的是所有的年份(var2,var3,var4,var5,var6),转化后格式如图: 转化成功后,继续重命名,其中_j这里代表原始表中的年份,var代表该变量的名称

例如,我们编辑的是Y变量的数据,所以口令3和口令4的输入如下: 口令3:rename _j year 口令4:rename var taxi (注:taxi就是Y变量,我们用taxi表示Y) 命名完,数据编辑框如下图所示。 第三步:排序。 例如,本例中的Y变量(taxi),是20个省份和5年的面板数据, 那么口令4为sort province year (虽意思是将province按升序排列,然后再根据排好的province数列排year这一列升序排列。然很多时候在执行sort之前,数据已经符合排序要求了,但为以防万一,请务必执行此操作) 第三步:保存。

Stata操作入门(中文)

第一讲Stata操作入门 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来 越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才 和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同 一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹 服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。 除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。 事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口 位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。

stata入门教程

Stata 快速入门 1、Stata的窗口 ?在最上方有一排菜单,即“File Edit Data Graphics Statistics User Window Help”。?左上“Review”(历史窗口):此窗口记录着自启动Stata以来执行过的命令。?右上“Variables”(变量窗口):此窗口记录着目前Stata内存中的所有变量。?正上方“Results”(结果窗口):此窗口显示执行Stata命令后的输出结果。 ?正下方“Command”(命令窗口):在此窗口输入想要执行的Stata命令。 2、将数据导入Stata ?打开Stata软件后,点击Data Editor(Edit)图标(也可以点击菜单“Window”→“Data Editor”),即可打开一个类似Excel的空白表格。 ?用Excel打开文件“nerlove.xls”,复制文件中的所有数据,并粘贴到Data Editor 中。 ?导入数据的另一方法是,点击菜单“File”→“Import”,然后导入各种格式的数据。但这种方法有时不如直接从Excel表中粘贴数据来得方便直观。 3、变量窗口 ?关闭Data Editor后,即会看到右上方的“Variables”窗口出现了5个变量:?分别为tc(total cost,总成本),q(total output, 总产量),pl(price of labor,小时工资率),pf(price of fuel,燃料价格),与pk(user cost of capital,资本的租赁价格。 4、存为dta数据文件 ?此时,可以点击Save图标(也可以点击菜单“File”→“Save”),将数据存为Stata格式的文件(扩展名为dta),比如nerlove.dta。 ?以后就可以用Stata直接打开这个数据集了(不需要再从Excel表中粘贴过来)。 5、打开dta数据文件 打开的方式有三种: 1.点击Open图标(也可以点击菜单“File”→“Open”),然后寻找要打开的dta 文件的位置。 2.直接双击想要打开的dta文件 3.在命令窗口输入以下命令(假设文件在E盘的根目录)并回车(按Enter键)

1 STATA入门

1 STATA入门 Stata统计软件包是目前世界上最著名的统计软件之一,与SAS、SPSS一起被并称为三大权威软件。它广泛的应用于经济、教育、人口、政治学、社会学、医学、药学、工矿、农林等学科领域,同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分析工作。其功能非常强大且操作简单、使用灵活、运行速度极快,在许多方面别具一格,而且操作灵活简单,易学易用。 Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。尽管它也提供了窗口菜单式的操作方式,但强烈建议大家坚持使用命令行/程序操作方式,很快你就会体会到使用程序和命令方式所带来的那种随心所欲自由地处理和分析数据的快感。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。这一特点使得STATA始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 STATA由美国计算机资源中心(Computer Resource Center)研制,现为STATA 公司的产品。从1985至2007的二十多年时间里,已连续推出1.1,1.2,…,7.0,8.0,9.0,10.0等多个版本。我们将要学习的是9.0版本。 1安装 (1) https://www.sodocs.net/doc/63842915.html,/bbs/dispbbs.asp?boardID=67&ID=97705&page=2 上有stata9.rar下载,但是做正式的论文或工作还是应该尽量用正版软件。 (2)将其解压到D:/stata9。 (3)点击setup安装>>改变安装路径到D:/stata8>>选择Stata/SE版本。 1.2启用和退出 (1) 程序→Stata,即可进入Stata,启动后出现文件对话框,要求输入注册单位和密码等。

Stata软件学习者应该收藏的学习资源

此软文主要面向讲师和做科研的人员,建议发布在此类人员关注的互动性强的网站 Stata软件学习者应该收藏的学习资源 ---- Stata牛人的学习笔记分享(转帖) 前言: 小弟小本,非统计专业科班出身,参加工作才知道原来学的统计知识不够用,在头儿的刺激下开始学习统计软件,计量知识薄弱,为了理清一堆模型,在各经济论坛潜水多时,水平没见涨,倒是收集了不少学习资料。这里转一篇Stata牛人前辈的笔记分享,供广大奋战在软件学习道路上的同学参考+瞻仰 正文如下: 我经常会被问到“Stata好学吗”、“我多长时间能学会Stata”,诸如此类的问题。诚然,相比于SPSS和Eviews等软件,Stata的门槛的确要高一些。然而,问题的关键并不在于Stata本身有多么难学,而在于你在统计和计量方面花费了多少时间,这与学习Stata所需的时间显著负相关。因此,我的回答往往会是:“哦,这个不好说,如果……,其实很简单……”。 相比于十年前,现在学习Stata的资料已经非常丰富了。虽说殊途同归,但不同的学习路径却存在着巨大的效率差异。对于初学者而言,我的建议是,首要的问题是知道“Stata能做什么”,继而才是“Stata如何做什么”。 第一个问题之所以重要,是因为从本质上讲,Stata只是我们完成统计分析的工具而已,因此,其基本平台是否宽广、是否有扩展潜力,以及它提供的分析工具是否能满足你的专业需求,都是你在选择Stata之前需要深入了解的。Stata User’s Guide(400页,中文)对这些问题做出了很好的解答,是一幅绝佳的导航图,能帮助你在短时间内了解Stata的基本架构、语法特征和核心功能。对于第二个问题,则有众多的资料可供参考: (1)网络资源 我精选了一些链接。值得一提的有如下几个: ●Stata官方网站。Stata公司提供的Web resources,涵盖了大量相关网络资源; 其FAQ则提供了各种常见问题的解答;Statalist则是一个类似于人大经济论坛 的免费的讨论区。加入Statalist的方法很简单,你只需要发送邮件至 majordomo@https://www.sodocs.net/doc/63842915.html,,邮件内容无需任何称谓,只需写上“subscribe Statalist”的字样即可。接到确认信息后,你便成为一名Statalist的成员了。当 然,即使不加入,你仍然可以浏览,但不能提问。 ●UCLA(加州大学洛杉矶分校)提供的网络教程。该网站提供的Data Management、

计量经济学stata操作指南

计量经济学stata操作(实验课) 第一章stata基本知识 1、stata窗口介绍 2、基本操作 (1)窗口锁定:Edit-preferences-general preferences-windowing-lock splitter (2)数据导入 (3)打开文件:use E:\example.dta,clear (4)日期数据导入: gen newvar=date(varname, “ymd”) format newvar %td 年度数据 gen newvar=monthly(varname, “ym”) format newvar %tm 月度数据 gen newvar=quarterly(varname, “yq”) format newvar %tq 季度数据 (5)变量标签 Label variable tc ` “total output” ’ (6)审视数据 describe list x1 x2 list x1 x2 in 1/5 list x1 x2 if q>=1000 drop if q>=1000 keep if q>=1000 (6)考察变量的统计特征 summarize x1 su x1 if q>=10000 su q,detail su tabulate x1 correlate x1 x2 x3 x4 x5 x6 (7)画图 histogram x1, width(1000) frequency kdensity x1 scatter x1 x2 twoway (scatter x1 x2) (lfit x1 x2) twoway (scatter x1 x2) (qfit x1 x2) (8)生成新变量 gen lnx1=log(x1) gen q2=q^2 gen lnx1lnx2=lnx1*lnx2 gen larg=(x1>=10000) rename larg large

STATA高级视频教程简介(连玉君)

STATA高级视频教程简介 培训目的: STATA高级视频教程的目的是使学员熟练使用STATA进行实证分析工作,主要包括: (1) 掌握多种常用的估计方法(如普通最小二乘法、广义最小二乘法、非线性最小二乘法、最大似然估计、IV估计和GMM); (2) 学会估计和分析时间序列和面板数据常用模型(如单位根检验、协整分析、VAR、固定效应模型、随机效应模型、动态面板模型、面板单位根检验和面板协整分析等等); (3) 学会编写一个完整的STATA程序; (4) 学会应用STATA进行抽样和模拟分析,包括Bootstrap和Monte Carlo 模拟分析。 课程简介:(详见课程目录) STATA高级视频教程共9讲,共48个视频文件,总计50余个学时。 第1-5讲介绍计量经济学中最为常用的五种估计方法,包括:普通最小二乘法(OLS)、广义最小二乘法(GLS)、非线性最小二乘法(NLS)、最大似然法(MLE)和广义矩估计法(GMM)。 第6讲介绍时间序列模型,包括:ARIMA模型、VAR模型、单位根检验、协整分析、误差修正模型、GARCH模型。这些模型基本上涵盖了宏观时间序列、金融时间序列分析中的常用工具。 第7讲介绍面板数据模型,包括:固定效应模型、随机效应模型、异方差和序列相关、动态面板模型、面板随机系数模型、面板随机前沿模型、面板单位根检验、面板协整分析等。这些模型由浅入深,基本上涵盖了目前文献中使用的多数面板分析方法。 第8讲介绍STATA编程技巧,包括:输入项、输出项的设定,子程序、可分组执行、可重复执行等程序高级功能,以及帮助文件的编写方法。通过本讲的学习,学员将能够独立编写复杂的STATA程序,这些程序和STATA官方提供的程序完全一致。 第9讲介绍自抽样和模拟分析,包括:Bootstrap(自抽样)、组合检验(Permutation tests)、刀切法(Jackknife)和蒙特卡洛模拟。不同于传统的假设检验和统计推断方法,这些方法都是以计算机模拟和抽样为基础的,在最近十年

STATA 学习入门必须知道的基础

STATA 学习入门必须知道的基础 作者:量化研究方法 关于Stata软件,我经常会被人问道:“你知道它到底能做什么吗?”那我们今天就带大家来了解一下这门当下热门的软件究竟的用处是什么? 1 关于Stata,这些基础的东西你必须要知道 很长一段时间里,我一直把“Stata”读为“Stay-ta”。有一次和一个从日本回来的朋友聊天,她把Stata读为“Star-ta”,让我甚感不适。经查阅,方才发现,原来“Stata”并非数个单词的缩写(因此其正确拼写为Stata 而非STATA),而是由“statistics”和“data”合成的一个新词。从这个小小的趣闻中,可以看出Stata 在问世之初(1985年)的主要功能在于统计分析和数据处理。经历了三十余年的发展,Stata 已经升级到第15版,在不断强化上述功能的同时,Stata在矩阵运算、绘图、编程等方面的功能也在不断加强。Stata 擅长数据处理、面板数据分析、时间序列分析、生存分析,以及调查数据分析,但其它方面的功能也并不逊色。(表1) 2为何选择Stata? 这是个不太容易回答的问题。Stata网站列举了数条可能的原因。Edwards(2005)曾经非常细致地对比了Stata,SPSS和SAS的优劣。Princeton大学的Torres-Reyna博士则将四种常用软件的特征总结为表2。整体而言,Stata具有较强的优势。 3 弱水三千,我为何钟情于Stata? 就我个人的经历而言,如下几个原因使我自2003年以来一直钟情于Stata。 Stata的数据处理功能很强大。由于将数据导入内存后进行运算,其速度非常快。在多个数据文件的合并和追加,以及文字资料、时序资料,以及调查资料的处理方面,Stata 总能以极为简洁的命令完成分析。

STATA初级视频教程说明书(连玉君)

STATA初级视频教程(2010版) 使用说明 连玉君 (中山大学 岭南学院 金融系) arlionn@https://www.sodocs.net/doc/63842915.html, 目 录 1 课程简介 (1) 2 课程特色 (2) 3 课程配套资料 (2) 4 配套资料的使用方法 (2) 5 讨论和建议 (4) 6 讲师介绍 (4) 7 报名咨询 (4) 8 培训优惠 (4) 附录A:STATA初级视频目录(时间节点) (5) 第一讲STATA简介 (5) 第二讲数据处理 (9) 第三讲Stata绘图 (13) 第四讲矩阵操作 (16) 第五讲STATA 编程初步 (18) 附录B:STATA高级视频教程简介 (20)

工欲善其事,必先利其器。无论是经济学、管理学还是社会科学的其他学科,定量分析都变得越来越重要了。作为一个较为年轻的计量软件,STATA自1985年问世以来,以其在数据处理、绘图、回归分析等方面的出色表现,赢得了越来越多的青睐。然而,相比于SPSS、Eviews等以菜单操作为主的软件,以命令操作见长的STATA软件门槛相对较高。由于进入国内的时间较短,相关的参考资料甚为有限,而STATA公司提供的近10000页的全英文使用手册更是令多数初学者望而生畏。这也成为阻碍多数国内同仁学习这款功能强大的计量软件的主要障碍。 鉴于上述情况,我们分别于2007年11月和2008年10月推出了“STATA初级视频教程”和“STATA高级视频教程”,内容涉及STATA的基本操作、数据处理、绘图、编程、常用计量模型的估计,以及Bootstrap和Monte Carlo模拟等内容。视频教学的直观性,加之课程的实用性导向,使这两套教程获得了广泛的好评。承蒙广大STATA视频教程学员的积极参与和反馈,我在过去两年多的时间里收集到了100余条修改建议,历经半年多的制作,最终得以为大家呈现这套新版STATA初级视频——“STATA初级视频教程(2010版)”。 STATA初级视频教程(2010版)共5讲,包含36个视频文件,总计40余个学时。内容涉及:STATA入门、数据处理、绘图、矩阵以及编程。内容简介如下(详细目录见附录A):第1讲从整体上介绍了STATA的基本架构,以便使学员在最短的时间内掌握STATA的精髓,包括:数据的导入导出、执行命令、修改和查验资料、log文件和do文件的使用、STATA与Word(Excel、LaTeX)等软件的完美结合,以及STATA常用设定等内容。 第2讲通过大量的实例,介绍了各种数据处理技巧,是本课程最为核心、最有特色的内容。主要包括:复杂变量的创建;分位数;重复样本值、缺漏值和离群值的处理;资料的合并、追加和重新组合;文字变量、类别变量的处理;时间序列和面板资料的处理;以及数据的查验和对比等内容。这些内容的学习将大幅提高学员的数据处理能力。 第3讲介绍STATA绘图。为了达到举一反三的效果,我先从整体上介绍STATA绘图的基本知识,进而将绘图命令拆解成8类选项和5类元素,并最终通过40余个实例全面介绍了15类常用图形的绘制方法。 第4讲介绍STATA矩阵操作,包括矩阵的定义和管理、矩阵运算、矩阵解析等四个主题,为后续学习STATA编程知识奠定了扎实的基础。 第5讲介绍STATA编程的基本知识,包括:程序的定义和调用、单值、暂时性物件(暂元、暂时性变量、暂时性文件、暂时性矩阵等)、循环语句、条件语句,以及STATA返回值的引用等内容。通过本讲的学习,学员将能够通过独立编写STATA程序来提高数据处理和模型估计的效率,为后续学习STATA高级程序奠定基础。 以上各讲都以专题的形式进行讲解,其中不但包含了STATA官方提供的常用命令,还包含了大量外部命令(520多个),为学员提供了强有力的实证分析工具。

5分钟搞定Stata面板数据分析

【原创】5分钟搞定Stata面板数据分析简易教程ver2.0作者:张达 5分钟搞定Stata面板数据分析 简易教程 步骤一:导入数据 原始表如下, 数据请以时间(1998,1999,2000,2001??)为横轴,样本名(北京,天津,河北??)为纵轴 将中文地名替换为数字。

注意:表中不能有中文字符,否则会出现错误。面板数据中不能有空值。 去除年份的一行,将其余部分复制到stata的data editor中,或保存为csv格式。

打开stata,调用数据。 方法一:直接复制到data editor中。 方法二:使用口令:insheet using 文件路径 调用例如:insheet using C:\STUDY\paper\taxi.csv 其中csv格式可用excel的“另存为”导出 如图:

步骤二:调整格式 首先请将代表样本的var1重命名 口令:rename var1 样本名 例如:rename var1 province 也可直接在var1处双击,在弹出的窗口中修改:

接下来将数据转化为面板数据的格式 口令:reshape long var, i(样本名) 例如:reshape long var, i(province) 其中var代表的是所有的年份(var2,var3,var4??) 转化后的格式如图: 转化成功后继续重命名,其中_j 这里代表原始表中的年份,var代表该变量的名称口令例如: rename _j year rename var taxi 也可直接在需要修改的名称处双击,在弹出的窗口中修改 如图:

stata 使用入门

Stata入门介绍 Stata入门介绍 转载,原作者不详。 (1) Stata要在使用中熟练的,大家应该多加练习。 (2) Stata的很多细节,这里不会涉及,只是选取相对重要的部分加以解释,大家在使用Stata 过程中留心积累。作为入门性质的介绍,本文只选取和中级计量经济学作业相关的内容和一些处理数据所使用的基本命令。对于更高深的内容,请大家参看STATA manual.” 界面 当我们把stata装好以后,首先需要了解的是它的界面。打开Stata后我们便可以看到它常用的四个窗口:Stata Results; Review; Variables; Stata Command。我们所有的运行结果都会在Stata Results界面中显示;而命令的输入则在Stata Command窗口;Review窗口记录我们使用过的命令;最后Variables窗口显示存在于当前数据库中的所有变量的名称。可以直接点击 Review窗口来重新输入已使用过的命令,我们所需变量可以通过点击Varaibles窗口来得到,这些都可以简便我们的操作。 Stata 命令 Stata软件功能强大,体现在它提供了丰富的命令,可以实现许多功能。每一个stata命令都相应的命令格式。我们在这里介绍常用的一些命令的功能和相应的格式,大家在使用stata的过程中会不断积累命令的相关知识。 需要对命令的帮助时可以用help命令查询。例如了解命令:“reg” ,就可以在Stata Command 窗口输入“help reg” ,也可以在Help选项下content中查找我们需要的相关命令。用help 查询,则窗口会显示关于该命令的详尽说明。更直接的办法是看Examples中的范例是如何使用该命令,阅读一些相关的说明并加以模仿。 重要习惯 我们使用stata进行回归分析时,需要养成一些好的习惯。在进行一些数据量很大,过程复杂的分析时尤其重要。 (1)使用日志(log)。它可以帮助我们记录stata的运行结果。 格式:log using c:\stata8\logfiles\10.21.5_30.log (注意:我们需要先建好文件夹c:\stata8\logfiles) 关闭log的命令为“log close”。 格式: log close 那么“10.21.5_30.log”文件就记录了从“log using”命令到“log close”命令之间stata

STATA面板数据模型操作命令

S T A T A 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 εαμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y=L.y /////// 产生一个滞后一期的新变量 gen F_y=F.y /////// 产生一个超前项的新变量 gen D_y=D.y /////// 产生一个一阶差分的新变量 gen D2_y=D2.y /////// 产生一个二阶差分的新变量 (二)模型的筛选和检验 ●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS 混合模型) ●xtreg sq cpi unem g se5 ln,fe 对于固定效应模型而言,回归结果中最后一行汇报的F 统计量便在于检验所有的个体效应整体上显着。在我们这个例子中发现F 统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS 模型。 ●2、检验时间效应(混合效应还是随机效应)(检验方法:LM 统计量) (原假设:使用OLS 混合模型) ●qui xtreg sq cpi unem g se5 ln,re (加上“qui ”之后第一幅图将不会呈现) xttest0 可以看出,LM 检验得到的P 值为0.0000,表明随机效应非常显着。可见,随机效应

模型也优于混合OLS模型。 ●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验) 原假设:使用随机效应模型(个体效应与解释变量无关) 通过上面分析,可以发现当模型加入了个体效应的时候,将显着优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下: Step1:估计固定效应模型,存储估计结果 Step2:估计随机效应模型,存储估计结果 Step3:进行Hausman检验 ●qui xtreg sq cpi unem g se5 ln,fe est store fe qui xtreg sq cpi unem g se5 ln,re est store re hausman fe (或者更优的是hausman fe,sigmamore/ sigmaless) 可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。此时,需要采用工具变量法和是使用固定效应模型。 (三)静态面板数据模型估计 ●1、固定效应模型估计 ●xtreg sq cpi unem g se5 ln,fe (如下图所示) 其中选项fe表明我们采用的是固定效应模型,表头部分的前两行呈现了模型的估计方法、界面变量的名称(id)、以及估计中使用的样本数目和个体的数目。第3行到第5行列示了模型的拟合优度、分为组内、组间和样本总体三个层面,通常情况下,关注的是组内(within),第6行和第7行分别列示了针对模型中所有非常数变量执行联合检验得到的F统计量和相应的P值,可以看出,参数整体上相当显着。 需要注意的是,表中最后一行列示了检验固定效应是否显着的F统计量和相应的P值。显然,本例中固定效应非常显着。 ●2、随机效应模型估计

stata命令大全(全)

*********面板数据计量分析与软件实现********* 说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。 *----------面板数据模型 * 1.静态面板模型:FE 和RE * 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验 * 4.动态面板模型(DID-GMM,SYS-GMM) * 5.面板随机前沿模型 * 6.面板协整分析(FMOLS,DOLS) *** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。 * 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA) *** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。 * 空间计量分析:SLM模型与SEM模型 *说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。 * --------------------------------- * --------一、常用的数据处理与作图----------- * --------------------------------- * 指定面板格式 xtset id year (id为截面名称,year为时间名称) xtdes /*数据特征*/ xtsum logy h /*数据统计特征*/ sum logy h /*数据统计特征*/ *添加标签或更改变量名 label var h "人力资本" rename h hum *排序 sort id year /*是以STATA面板数据格式出现*/ sort year id /*是以DEA格式出现*/ *删除个别年份或省份 drop if year<1992 drop if id==2 /*注意用==*/

相关主题