搜档网
当前位置:搜档网 › STATA入门4 数据整理

STATA入门4 数据整理

STATA入门4 数据整理
STATA入门4 数据整理

4 数据整理

4.1拆分与连接数据文件要掌握的命令

为了折分或合并数据文件,要掌握下面的命令。这也是该小节的学习目标。

4.2案例:拆分与连接数据

4.2.1横向拆分数据

要完成的任务(任务4.1)将mydata数据分成三个数据文件,分别为学生基本信息文件student.dta, 经济学成绩文件economy.dta和数学成绩文件math.dta。

原始数据文件mydata.dta

将要新生成的三个数据文件如下

横向拆分数据案例的参考操作

*-将mydata拆分成学生基本信息数据文件student--------------------cd d:/mydata/

use mydata, clear

drop economy math

save student, replace

*-将mydata拆分成经济学成绩数据文件economy--------------------

use mydata, clear

keep id economy

save economyt,replace

*--将mydata拆分成数学成绩数据文件math--------------------

use mydata, clear

keep id math

save math,replace

4.2.2纵向拆分数据

要完成的任务(任务4.2):将mydata数据分成二个数据文件,分别为女生数据集female.dta和男生数据集 male.dta。原始数据同上。该任务完成后将要形成的数据如下

纵向拆分数据案例的参考操作

*----------------将mydata拆分成女生数据集female--------------------

use mydata, clear

keep if gender==0

save female, replace

*----------------将mydata拆分成女生数据集male--------------------

use mydata, clear

drop if gender==0

save male, replace

4.3案例:连接数据文件

4.3.1纵向合并数据

要完成的任务(任务4.3):将女生数据集female.dta和男生数据集 male.dta 合并为新的数据集mydata1 原始数据同上。

纵向拆分数据案例的参考操作

*-将女生数据集female和男生数据集male合并为新数据mydata1--------use male, clear

append using female

save mydata1, replace

4.3.2横向合并数据

要完成的任务(任务 4.4):将学生基本信息数据集student.dta和数学成绩math.dta,经济学成绩economy.dta合并为新的数据集mydata2. 原始数据同上。

横向拆分数据案例的参考操作

*---------将学生基本信息和学习成绩合并成新数据mydata2---------

?use economy,clear

?sort id

?merge id using student

?drop _merge

?save mydata2,replace

?use math,clear

?sort id

?merge id using mydata2

?drop _merge

?save mydata2, replace

4.4数据重整

4.4.1要掌握的命令

4.4.2案例:面板数据重整

任务4.5 数据集mywide.dta共有六个变量,其中后四个变量分别为2003年和2004年的数据成绩和经济学成绩,现要求将数据转化为mylong.dta的格式,将年份单独做成变量,数学和经济学成绩则成为两个单独变量。

重整参考操作

*---------将学习成绩数据集mywide变换形式---------use mywide, clear

reshape long math economy, i(id name) j(year)

save mylong, replace

*---------将学习成绩数据集mylong变换形式---------reshape wide

*或者

use mylong, clear

reshape wide math economy, i(id name) j(yearr)

save mywide2, replace

4.4.3案例:多列数据转为少数几列

任务4.6 以下数据集虽然有很多列,但实际上只有一个变量,将该数据复制到

重整参考操作

*---------将多列数据变一列---------

*先将原始数据复制粘贴到STATA中

stack var1-var6, into(x) clear

drop _stack

4.5案例:数据转置

任务4.7 :将下面的数据行列互换

原始数据

互换后的数据应该为:

转置参考操作

*---------转置---------

use math,clear

xpose, clear

4.6复习与作业

drop keep merge append reshape xpose stack

(1)将第一次要求录入的个人信息数据分别上传到网上,以”i+自己的学号”为文件名保存该数据。然后任意下载10位同学的个人信息,合并成一个文件,并加注标签和说明信息。

(2)将自己家乡省份2000-2005年各年的GDP、人口、农村居民人均纯收入数据收集并做成数据集,文件名为myhm+学号。上传到网络,各自下载10位同学的该文件,并将其合并为一个数据集,文件名为“ourhm+学号”。

(3)再将第一个题和第二题中形成的两个合并文件进一步合并为一个文件。(假设你是该省的联络人,这种表格是有一定实际意义的)。文件名为“ourpv+学号”。

(4)将第二题中的数据变换结构如下。文件名为mylg+学号

5分钟速学stata面板数据回归(初学者超实用!)

5分钟速学stata面板数据回归(超实用!) 第一步:编辑数据。 面板数据的回归,比如该回归模型为:Y it=β0+β1X1it+β2X2it+β3X3it+εt,在stata中进行回归,需要先将各个变量的数据逐个编辑好,该模型中共有Y X1 X2 X3三个变量,那么先从Y的数据开始编辑,将变量Y的面板数据编辑到stata软件中,较方便的做法是,将excel的数据直接复制到stata软件的数据编辑框中,而excel中的数据需要如下图编辑: 从数据的第二行开始选中20个样本数据,如图:

直接复制粘贴至stata中的data editor中,如图: 第二步:格式调整。 首先,请将代表样本的var1Y变量数据是选20个省份5年的数据为样本,那么口令为rename var1 province 。例如:本例中的Y变量数据编辑接下来需要输入口令为reshape long var,i(province) 其中,var代表的是所有的年份(var2,var3,var4,var5,var6),转化后格式如图: 转化成功后,继续重命名,其中_j这里代表原始表中的年份,var代表该变量的名称

例如,我们编辑的是Y变量的数据,所以口令3和口令4的输入如下: 口令3:rename _j year 口令4:rename var taxi (注:taxi就是Y变量,我们用taxi表示Y) 命名完,数据编辑框如下图所示。 第三步:排序。 例如,本例中的Y变量(taxi),是20个省份和5年的面板数据, 那么口令4为sort province year (虽意思是将province按升序排列,然后再根据排好的province数列排year这一列升序排列。然很多时候在执行sort之前,数据已经符合排序要求了,但为以防万一,请务必执行此操作) 第三步:保存。

stata入门教程

Stata 快速入门 1、Stata的窗口 ?在最上方有一排菜单,即“File Edit Data Graphics Statistics User Window Help”。?左上“Review”(历史窗口):此窗口记录着自启动Stata以来执行过的命令。?右上“Variables”(变量窗口):此窗口记录着目前Stata内存中的所有变量。?正上方“Results”(结果窗口):此窗口显示执行Stata命令后的输出结果。 ?正下方“Command”(命令窗口):在此窗口输入想要执行的Stata命令。 2、将数据导入Stata ?打开Stata软件后,点击Data Editor(Edit)图标(也可以点击菜单“Window”→“Data Editor”),即可打开一个类似Excel的空白表格。 ?用Excel打开文件“nerlove.xls”,复制文件中的所有数据,并粘贴到Data Editor 中。 ?导入数据的另一方法是,点击菜单“File”→“Import”,然后导入各种格式的数据。但这种方法有时不如直接从Excel表中粘贴数据来得方便直观。 3、变量窗口 ?关闭Data Editor后,即会看到右上方的“Variables”窗口出现了5个变量:?分别为tc(total cost,总成本),q(total output, 总产量),pl(price of labor,小时工资率),pf(price of fuel,燃料价格),与pk(user cost of capital,资本的租赁价格。 4、存为dta数据文件 ?此时,可以点击Save图标(也可以点击菜单“File”→“Save”),将数据存为Stata格式的文件(扩展名为dta),比如nerlove.dta。 ?以后就可以用Stata直接打开这个数据集了(不需要再从Excel表中粘贴过来)。 5、打开dta数据文件 打开的方式有三种: 1.点击Open图标(也可以点击菜单“File”→“Open”),然后寻找要打开的dta 文件的位置。 2.直接双击想要打开的dta文件 3.在命令窗口输入以下命令(假设文件在E盘的根目录)并回车(按Enter键)

STATA面板数据模型操作命令

STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 μβit +=x y it it ε αμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)

●gen lag_y=L.y /////// 产生一个滞后一期的新变量 gen F_y=F.y /////// 产生一个超前项的新变量 gen D_y=D.y /////// 产生一个一阶差分的新变量 gen D2_y=D2.y /////// 产生一个二阶差分的新变量 (二)模型的筛选和检验 ●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe 对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。 ●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)

(原假设:使用OLS混合模型) ●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0 可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型。 ●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验) 原假设:使用随机效应模型(个体效应与解释变量无关) 通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下: Step1:估计固定效应模型,存储估计结果 Step2:估计随机效应模型,存储估计结果 Step3:进行Hausman检验

Stata软件学习者应该收藏的学习资源

此软文主要面向讲师和做科研的人员,建议发布在此类人员关注的互动性强的网站 Stata软件学习者应该收藏的学习资源 ---- Stata牛人的学习笔记分享(转帖) 前言: 小弟小本,非统计专业科班出身,参加工作才知道原来学的统计知识不够用,在头儿的刺激下开始学习统计软件,计量知识薄弱,为了理清一堆模型,在各经济论坛潜水多时,水平没见涨,倒是收集了不少学习资料。这里转一篇Stata牛人前辈的笔记分享,供广大奋战在软件学习道路上的同学参考+瞻仰 正文如下: 我经常会被问到“Stata好学吗”、“我多长时间能学会Stata”,诸如此类的问题。诚然,相比于SPSS和Eviews等软件,Stata的门槛的确要高一些。然而,问题的关键并不在于Stata本身有多么难学,而在于你在统计和计量方面花费了多少时间,这与学习Stata所需的时间显著负相关。因此,我的回答往往会是:“哦,这个不好说,如果……,其实很简单……”。 相比于十年前,现在学习Stata的资料已经非常丰富了。虽说殊途同归,但不同的学习路径却存在着巨大的效率差异。对于初学者而言,我的建议是,首要的问题是知道“Stata能做什么”,继而才是“Stata如何做什么”。 第一个问题之所以重要,是因为从本质上讲,Stata只是我们完成统计分析的工具而已,因此,其基本平台是否宽广、是否有扩展潜力,以及它提供的分析工具是否能满足你的专业需求,都是你在选择Stata之前需要深入了解的。Stata User’s Guide(400页,中文)对这些问题做出了很好的解答,是一幅绝佳的导航图,能帮助你在短时间内了解Stata的基本架构、语法特征和核心功能。对于第二个问题,则有众多的资料可供参考: (1)网络资源 我精选了一些链接。值得一提的有如下几个: ●Stata官方网站。Stata公司提供的Web resources,涵盖了大量相关网络资源; 其FAQ则提供了各种常见问题的解答;Statalist则是一个类似于人大经济论坛 的免费的讨论区。加入Statalist的方法很简单,你只需要发送邮件至 majordomo@https://www.sodocs.net/doc/8611304359.html,,邮件内容无需任何称谓,只需写上“subscribe Statalist”的字样即可。接到确认信息后,你便成为一名Statalist的成员了。当 然,即使不加入,你仍然可以浏览,但不能提问。 ●UCLA(加州大学洛杉矶分校)提供的网络教程。该网站提供的Data Management、

STATA高级视频教程简介(连玉君)

STATA高级视频教程简介 培训目的: STATA高级视频教程的目的是使学员熟练使用STATA进行实证分析工作,主要包括: (1) 掌握多种常用的估计方法(如普通最小二乘法、广义最小二乘法、非线性最小二乘法、最大似然估计、IV估计和GMM); (2) 学会估计和分析时间序列和面板数据常用模型(如单位根检验、协整分析、VAR、固定效应模型、随机效应模型、动态面板模型、面板单位根检验和面板协整分析等等); (3) 学会编写一个完整的STATA程序; (4) 学会应用STATA进行抽样和模拟分析,包括Bootstrap和Monte Carlo 模拟分析。 课程简介:(详见课程目录) STATA高级视频教程共9讲,共48个视频文件,总计50余个学时。 第1-5讲介绍计量经济学中最为常用的五种估计方法,包括:普通最小二乘法(OLS)、广义最小二乘法(GLS)、非线性最小二乘法(NLS)、最大似然法(MLE)和广义矩估计法(GMM)。 第6讲介绍时间序列模型,包括:ARIMA模型、VAR模型、单位根检验、协整分析、误差修正模型、GARCH模型。这些模型基本上涵盖了宏观时间序列、金融时间序列分析中的常用工具。 第7讲介绍面板数据模型,包括:固定效应模型、随机效应模型、异方差和序列相关、动态面板模型、面板随机系数模型、面板随机前沿模型、面板单位根检验、面板协整分析等。这些模型由浅入深,基本上涵盖了目前文献中使用的多数面板分析方法。 第8讲介绍STATA编程技巧,包括:输入项、输出项的设定,子程序、可分组执行、可重复执行等程序高级功能,以及帮助文件的编写方法。通过本讲的学习,学员将能够独立编写复杂的STATA程序,这些程序和STATA官方提供的程序完全一致。 第9讲介绍自抽样和模拟分析,包括:Bootstrap(自抽样)、组合检验(Permutation tests)、刀切法(Jackknife)和蒙特卡洛模拟。不同于传统的假设检验和统计推断方法,这些方法都是以计算机模拟和抽样为基础的,在最近十年

5分钟搞定Stata面板数据分析

【原创】5分钟搞定Stata面板数据分析简易教程ver2.0作者:张达 5分钟搞定Stata面板数据分析 简易教程 步骤一:导入数据 原始表如下, 数据请以时间(1998,1999,2000,2001??)为横轴,样本名(北京,天津,河北??)为纵轴 将中文地名替换为数字。

注意:表中不能有中文字符,否则会出现错误。面板数据中不能有空值。 去除年份的一行,将其余部分复制到stata的data editor中,或保存为csv格式。

打开stata,调用数据。 方法一:直接复制到data editor中。 方法二:使用口令:insheet using 文件路径 调用例如:insheet using C:\STUDY\paper\taxi.csv 其中csv格式可用excel的“另存为”导出 如图:

步骤二:调整格式 首先请将代表样本的var1重命名 口令:rename var1 样本名 例如:rename var1 province 也可直接在var1处双击,在弹出的窗口中修改:

接下来将数据转化为面板数据的格式 口令:reshape long var, i(样本名) 例如:reshape long var, i(province) 其中var代表的是所有的年份(var2,var3,var4??) 转化后的格式如图: 转化成功后继续重命名,其中_j 这里代表原始表中的年份,var代表该变量的名称口令例如: rename _j year rename var taxi 也可直接在需要修改的名称处双击,在弹出的窗口中修改 如图:

stata命令大全(全)

*********面板数据计量分析与软件实现********* 说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。 *----------面板数据模型 * 1.静态面板模型:FE 和RE * 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验 * 4.动态面板模型(DID-GMM,SYS-GMM) * 5.面板随机前沿模型 * 6.面板协整分析(FMOLS,DOLS) *** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。 * 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA) *** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。 * 空间计量分析:SLM模型与SEM模型 *说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。 * --------------------------------- * --------一、常用的数据处理与作图----------- * --------------------------------- * 指定面板格式 xtset id year (id为截面名称,year为时间名称) xtdes /*数据特征*/ xtsum logy h /*数据统计特征*/ sum logy h /*数据统计特征*/ *添加标签或更改变量名 label var h "人力资本" rename h hum *排序 sort id year /*是以STATA面板数据格式出现*/ sort year id /*是以DEA格式出现*/ *删除个别年份或省份 drop if year<1992 drop if id==2 /*注意用==*/

STATA初级视频教程说明书(连玉君)

STATA初级视频教程(2010版) 使用说明 连玉君 (中山大学 岭南学院 金融系) arlionn@https://www.sodocs.net/doc/8611304359.html, 目 录 1 课程简介 (1) 2 课程特色 (2) 3 课程配套资料 (2) 4 配套资料的使用方法 (2) 5 讨论和建议 (4) 6 讲师介绍 (4) 7 报名咨询 (4) 8 培训优惠 (4) 附录A:STATA初级视频目录(时间节点) (5) 第一讲STATA简介 (5) 第二讲数据处理 (9) 第三讲Stata绘图 (13) 第四讲矩阵操作 (16) 第五讲STATA 编程初步 (18) 附录B:STATA高级视频教程简介 (20)

工欲善其事,必先利其器。无论是经济学、管理学还是社会科学的其他学科,定量分析都变得越来越重要了。作为一个较为年轻的计量软件,STATA自1985年问世以来,以其在数据处理、绘图、回归分析等方面的出色表现,赢得了越来越多的青睐。然而,相比于SPSS、Eviews等以菜单操作为主的软件,以命令操作见长的STATA软件门槛相对较高。由于进入国内的时间较短,相关的参考资料甚为有限,而STATA公司提供的近10000页的全英文使用手册更是令多数初学者望而生畏。这也成为阻碍多数国内同仁学习这款功能强大的计量软件的主要障碍。 鉴于上述情况,我们分别于2007年11月和2008年10月推出了“STATA初级视频教程”和“STATA高级视频教程”,内容涉及STATA的基本操作、数据处理、绘图、编程、常用计量模型的估计,以及Bootstrap和Monte Carlo模拟等内容。视频教学的直观性,加之课程的实用性导向,使这两套教程获得了广泛的好评。承蒙广大STATA视频教程学员的积极参与和反馈,我在过去两年多的时间里收集到了100余条修改建议,历经半年多的制作,最终得以为大家呈现这套新版STATA初级视频——“STATA初级视频教程(2010版)”。 STATA初级视频教程(2010版)共5讲,包含36个视频文件,总计40余个学时。内容涉及:STATA入门、数据处理、绘图、矩阵以及编程。内容简介如下(详细目录见附录A):第1讲从整体上介绍了STATA的基本架构,以便使学员在最短的时间内掌握STATA的精髓,包括:数据的导入导出、执行命令、修改和查验资料、log文件和do文件的使用、STATA与Word(Excel、LaTeX)等软件的完美结合,以及STATA常用设定等内容。 第2讲通过大量的实例,介绍了各种数据处理技巧,是本课程最为核心、最有特色的内容。主要包括:复杂变量的创建;分位数;重复样本值、缺漏值和离群值的处理;资料的合并、追加和重新组合;文字变量、类别变量的处理;时间序列和面板资料的处理;以及数据的查验和对比等内容。这些内容的学习将大幅提高学员的数据处理能力。 第3讲介绍STATA绘图。为了达到举一反三的效果,我先从整体上介绍STATA绘图的基本知识,进而将绘图命令拆解成8类选项和5类元素,并最终通过40余个实例全面介绍了15类常用图形的绘制方法。 第4讲介绍STATA矩阵操作,包括矩阵的定义和管理、矩阵运算、矩阵解析等四个主题,为后续学习STATA编程知识奠定了扎实的基础。 第5讲介绍STATA编程的基本知识,包括:程序的定义和调用、单值、暂时性物件(暂元、暂时性变量、暂时性文件、暂时性矩阵等)、循环语句、条件语句,以及STATA返回值的引用等内容。通过本讲的学习,学员将能够通过独立编写STATA程序来提高数据处理和模型估计的效率,为后续学习STATA高级程序奠定基础。 以上各讲都以专题的形式进行讲解,其中不但包含了STATA官方提供的常用命令,还包含了大量外部命令(520多个),为学员提供了强有力的实证分析工具。

Stata软件基本操作和数据分析入门

Stata软件基本操作和数据分析入门 第一讲Stata操作入门 张文彤赵耐青 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。 2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

相关主题