搜档网
当前位置:搜档网 › stata上机实验操作

stata上机实验操作

stata上机实验操作
stata上机实验操作

第六章第二题:

1. 建立完成的教育年数(ED )对到最近大学的距离(Dist )的回归:

. reg ed dist, robust

斜率估计值是:-0.073

2. reg ed dist bytest female black hispanic incomehi ownhome dadcoll cue80 stwmfg80,robust

Dist 对ED 的效应估计是:-0.032

3. 系数下降50%,存在很大差异,(1)中回归存在遗漏变量偏差

4. di e(r2_a)(可看到调整后的R2)

第一问中=0.0074 调整的2R =0.00718796

_cons 13.95586 .0378112 369.09 0.000 13.88172 14.02999

dist -.0733727 .0134334 -5.46 0.000 -.0997101 -.0470353

ed Coef. Std. Err. t P>|t| [95% Conf. Interval]

Robust

Root MSE = 1.8074

R-squared = 0.0074

Prob > F = 0.0000

F( 1, 3794) = 29.83

Linear regression Number of obs = 3796

. reg ed dist , robust

2R

第二问中=0.2788 2R = 0.27693235

可以得到第二问中的拟合效果要优于第一问。

第二问中相似的原因:因为n 很大。

5. Dadcoll 父亲有没有念过大学:

系数为正(0.6961324)衡量父亲念过大学的学生接受的教育年数平均比其父亲没有年过大学的学生多。

.0232052

-.0517777 1)原因:这些参数在一定程度上构成了上大学的机会成本。

2)它们的系数估计值的符号应该如此。当Stwmfg80增加时,放弃的工资增加,所以大学入学率降低了;因而Stwmfg80的系数对应为负。

而当Cue80增加时,人们会发现找工作很困难,这降低上大学的机会成本,所以平均的大学入学率就会增加;因而Cue80的系数对应为正。

7.带入计算即可(14.75)

8.同7.(14.69)

第七章第二题

1. . reg course_eval beauty,robust

95%置信区间见上表。

2.

2R

_cons 3.998272 .0253493 157.73 0.000 3.948458 4.048087

beauty .1330014 .0323189 4.12 0.000 .0694908 .1965121

course_eval Coef. Std. Err. t P>|t| [95% Conf. Interval]

Robust

Root MSE = .54545

R-squared = 0.0357

Prob > F = 0.0000

F( 1, 461) = 16.94

Linear regression Number of obs = 463

Linear regression Number of obs = 463 F( 7, 455) = 14.43 Prob > F = 0.0000 R-squared = 0.1556 Root MSE = .51377

Robust

course_eval Coef. Std. Err. t P>|t| [95% Conf. Interval]

age -.0019545 .0026218 -0.75 0.456 -.0071068 .0031978 beauty .1592092 .0306846 5.19 0.000 .098908 .2195104 minority -.1694282 .067891 -2.50 0.013 -.3028471 -.0360093 female -.1832345 .0521947 -3.51 0.000 -.2858071 -.0806619 onecredit .633 .1077655 5.87 0.000 .4212201 .8447798 intro .0079488 .0565469 0.14 0.888 -.1031766 .1190742 nnenglish -.2438402 .0958959 -2.54 0.011 -.432294 -.0553863 _cons 4.16853 .1390349 29.98 0.000 3.8953 4.44176

由P值得出age 及intro 变量均不显著。所以应该去掉。

Source SS df MS Number of obs = 463

F( 5, 457) = 16.71

Model 21.9857702 5 4.39715404 Prob > F = 0.0000

Residual 120.25285 457 .263135339 R-squared = 0.1546

Adj R-squared = 0.1453

Total 142.23862 462 .307875801 Root MSE = .51297

course_eval Coef. Std. Err. t P>|t| [95% Conf. Interval]

minority -.1647853 .0756893 -2.18 0.030 -.3135275 -.0160431

female -.1741755 .049113 -3.55 0.000 -.2706909 -.0776601

onecredit .6413254 .1063165 6.03 0.000 .4323955 .8502554

beauty .1660434 .0306266 5.42 0.000 .1058569 .2262299

nnenglish -.2480077 .1052349 -2.36 0.019 -.4548121 -.0412033

_cons 4.072006 .032976 123.48 0.000 4.007203 4.13681

变量均显著

合理的置信区间应为(0 .1058569 0.2262299)

第八章第二题:

1.reg course_eval beauty intro onecredit female minority nnenglish,r

2. gen age2=age*age

. reg course_eval age age2,beauty intro onecredit female minority nnenglish ,r

由age 与age2 的p值可看出均大于0.05,因此不能拒绝原假设,即没有充分的证据显示age 对course_eval的效应是非线性的,也没有证据显示Age对Course_Eval 有影响。

3.生成交互项:generate a= female* beauty

.regress course_eval beauty intro onecredit female minority nnenglish fb,robust

female与Beauty的交互作用的变量后,其P值为0.000变量是显著的,即有充分证据表明性别不同时,Beauty的效应之差存在。

4.

. sum beauty

Variable Obs Mean Std. Dev. Min

> Max

>

beauty 463 4.75e-08 .7886477 -1.450494

> 1.970023

可知:手术前的beauty为-0.7886,术后为0.7886,上升了0.231 * (2 * 0.79) = 0.37.课程提高的95%置信区间为(0.231*1.96*0.048) *(2 *0.79) ,即(0.22 ,0.51)

5.计算略

第八章第四题:

keep if country_name != "Malta"

reg growth tradeshare yearsschool //回归1

est store m1

gen ly=ln( yearsschool )

reg growth tradeshare ly

est store m2

gen lr=ln( rgdp60)

reg growth tradeshare ly rev_coups assasinations lr

est store m3

gen tly= tradeshare* ly

reg growth tradeshare ly rev_coups assasinations lr tly

est store m4

gen t2= tradeshare* tradeshare

gen t3= tradeshare* t2

reg growth tradeshare t2 t3 ly rev_coups assasinations lr

est store m5

outreg2 [m1 m2 m3 m4 m5] using myfile , word replace see

或者分步:首先drop in 65

1.. reg growth tradeshare yearsschool

Source SS df MS Number of obs = 64 F( 2, 61) = 5.84 Model 33.3764711 2 16.6882356 Prob > F = 0.0048 Residual 174.431689 61 2.85953588 R-squared = 0.1606 Adj R-squared = 0.1331 Total 207.80816 63 3.29854222 Root MSE = 1.691

growth Coef. Std. Err. t P>|t| [95% Conf. Interval]

tradeshare 1.897823 .9360473 2.03 0.047 .0260808 3.769565 yearsschool .2429753 .083702 2.90 0.005 .0756027 .4103478 _cons -.1222363 .6626687 -0.18 0.854 -1.447324 1.202852

2.. gene ly=ln( yearsschool )

. reg growth tradeshare ly

Source SS df MS Number of obs = 64

F( 2, 61) = 12.29

Model 59.6761976 2 29.8380988 Prob > F = 0.0000

Residual 148.131962 61 2.42839283 R-squared = 0.2872

Adj R-squared = 0.2638

Total 207.80816 63 3.29854222 Root MSE = 1.5583

growth Coef. Std. Err. t P>|t| [95% Conf. Interval]

tradeshare 1.748979 .8599768 2.03 0.046 .0293485 3.468608

ly 1.016292 .2230901 4.56 0.000 .5701953 1.462388

_cons -.185739 .5642853 -0.33 0.743 -1.314097 .9426191

3. gen lr=ln( rgdp60)

. reg growth tradeshare ly rev_coups assasinations lr

Source SS df MS Number of obs = 64

F( 5, 58) = 9.61

Model 94.1730235 5 18.8346047 Prob > F = 0.0000

Residual 113.635136 58 1.95922649 R-squared = 0.4532

Adj R-squared = 0.4060

Total 207.80816 63 3.29854222 Root MSE = 1.3997

growth Coef. Std. Err. t P>|t| [95% Conf. Interval]

tradeshare 1.10353 .8331579 1.32 0.191 -.5642168 2.771277

ly 2.161291 .3626545 5.96 0.000 1.435359 2.887223

rev_coups -2.299537 1.004465 -2.29 0.026 -4.310193 -.2888816

assasinations .2277195 .4336512 0.53 0.602 -.6403278 1.095767

lr -1.621135 .3985046 -4.07 0.000 -2.418829 -.8234416

_cons 11.74591 2.919804 4.02 0.000 5.901285 17.59053

4. gen tly= tradeshare* ly

. reg growth tradeshare ly rev_coups assasinations lr tly

Source SS df MS Number of obs = 64

F( 6, 57) = 8.00

Model 94.9878003 6 15.8313001 Prob > F = 0.0000

Residual 112.82036 57 1.97930455 R-squared = 0.4571

Adj R-squared = 0.3999

Total 207.80816 63 3.29854222 Root MSE = 1.4069

growth Coef. Std. Err. t P>|t| [95% Conf. Interval]

tradeshare 1.882807 1.475292 1.28 0.207 -1.071415 4.837029

ly 2.524742 .6736203 3.75 0.000 1.175841 3.873644

rev_coups -2.35021 1.012683 -2.32 0.024 -4.378073 -.3223463

assasinations .2242049 .435902 0.51 0.609 -.6486738 1.097084

lr -1.641397 .4017843 -4.09 0.000 -2.445956 -.8368374

tly -.6900855 1.075573 -0.64 0.524 -2.843883 1.463712

_cons 11.49852 2.959949 3.88 0.000 5.57132 17.42571

5.gen t2= tradeshare* tradeshare

. gen t3= tradeshare* t2

. regress growth tradeshare t2 t3 ly rev_coups assasinations lr

Source SS df MS Number of obs = 64 F( 7, 56) = 7.13 Model 97.8981719 7 13.9854531 Prob > F = 0.0000 Residual 109.909988 56 1.96267836 R-squared = 0.4711 Adj R-squared = 0.4050 Total 207.80816 63 3.29854222 Root MSE = 1.401

growth Coef. Std. Err. t P>|t| [95% Conf. Interval]

tradeshare -5.701945 9.755116 -0.58 0.561 -25.24379 13.8399 t2 8.487876 17.43505 0.49 0.628 -26.43872 43.41448 t3 -2.759735 9.249782 -0.30 0.767 -21.28927 15.76981 ly 2.133188 .3669534 5.81 0.000 1.398092 2.868284 rev_coups -2.035454 1.025946 -1.98 0.052 -4.09067 .0197616 assasinations .1021111 .4435059 0.23 0.819 -.7863379 .9905601 lr -1.584348 .4079428 -3.88 0.000 -2.401556 -.7671405 _cons 12.92906 3.098466 4.17 0.000 6.722087 19.13603

1.散点图----------twoway (scatter growth yearsschool)

2.

预测growth

回归1预测Growth 的增长为0.243×(6-4)=0.486

回归2预测Growth 的增长为1.016×(ln6-ln4)=0.412。 3.由回归结果知;Rev_Coups 是显著的 Assasinations 是不显著的

4. 交互项tradeshare ×ln(yearsschool)的系数不显著,所以没有证据显示一国的TradeShare 对Growth 的效应依赖于受教育水平。

5. Tradeshare 2和Tradeshare 3的系数不显著,所以没有证据表明TradeShare 和Growth 之间存在非线性关系。

6. 回归3预测Growth 的增长为1.104×(1-0.5)=0.552,回归5预测Growth 的增长为-5.702

×(1-0.5)+8.488×(12-0.52)-2.760×(13-0.53)=1.1。

第十章第二题

1.

g r o w t h

xtset fips year(定义截面变量和时间变量)

gen lncome=ln(income)

xtreg fatalityrate sb_useage speed65 speed70 ba08 drinkage21 lncome age,r

Random-effects GLS regression Number of obs = 556 Group variable: fips Number of groups = 51

R-sq: within = 0.6834 Obs per group: min = 8 between = 0.3426 avg = 10.9 overall = 0.4805 max = 15

Wald chi2(7) = 1086.83 corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

fatalityrate Coef. Std. Err. z P>|z| [95% Conf. Interval]

sb_useage -.004504 .0011238 -4.01 0.000 -.0067066 -.0023014 speed65 -.0003406 .0003276 -1.04 0.298 -.0009827 .0003015 speed70 .0013351 .0003287 4.06 0.000 .0006909 .0019793 ba08 -.0013643 .000367 -3.72 0.000 -.0020836 -.000645 drinkage21 .000767 .0005097 1.50 0.132 -.000232 .001766 lncome -.0126154 .0011453 -11.01 0.000 -.0148602 -.0103707 age .0002318 .0002394 0.97 0.333 -.0002373 .000701 _cons .1379473 .008919 15.47 0.000 .1204664 .1554282

sigma_u .00301581

sigma_e .0017871

rho .74011223 (fraction of variance due to u_i)

.

(1)安全带使用的系数为负,估计是显著的,安全带使用会减少死亡率。

2.xtreg fatalityrate sb_useage speed65 speed70 ba08 drinkage21 lncome age,fe(默认地区效应)

Group variable: fips Number of groups = 51

R-sq: within = 0.6868 Obs per group: min = 8

between = 0.1957 avg = 10.9

overall = 0.3896 max = 15

F(7,498) = 156.00

corr(u_i, Xb) = -0.1332 Prob > F = 0.0000 fatalityrate Coef. Std. Err. t P>|t| [95% Conf. Interval]

sb_useage -.0057748 .0011557 -5.00 0.000 -.0080455 -.003504

speed65 -.000425 .0003339 -1.27 0.204 -.001081 .0002309

speed70 .0012333 .0003293 3.74 0.000 .0005862 .0018804

ba08 -.0013775 .0003727 -3.70 0.000 -.0021097 -.0006452

drinkage21 .0007453 .0005074 1.47 0.142 -.0002516 .0017422

lncome -.0135144 .0014192 -9.52 0.000 -.0163027 -.0107261

age .0009787 .000382 2.56 0.011 .0002281 .0017292

_cons .1209958 .0097669 12.39 0.000 .1018063 .1401853

sigma_u .00383103

sigma_e .0017871

rho .82128567 (fraction of variance due to u_i)

F test that all u_i=0: F(50, 498) = 29.67 Prob > F = 0.0000

.

发生了变化,因为2消除了由于时间上相同的不可观测变量所引起的遗漏变量偏差。

3. xtreg fatalityrate sb_useage speed65 speed70 ba08 drinkage21 lncome age i.year, fe

Group variable: fips Number of groups = 51

R-sq: within = 0.7506 Obs per group: min = 8

between = 0.1139 avg = 10.9

overall = 0.0338 max = 15

F(21,484) = 69.37

corr(u_i, Xb) = -0.5086 Prob > F = 0.0000

fatalityrate Coef. Std. Err. t P>|t| [95% Conf. Interval]

sb_useage -.0037186 .0011328 -3.28 0.001 -.0059445 -.0014926

speed65 -.0007833 .0004241 -1.85 0.065 -.0016166 .00005

speed70 .0008042 .0003402 2.36 0.018 .0001358 .0014725

ba08 -.0008225 .0003516 -2.34 0.020 -.0015134 -.0001316

drinkage21 -.0011337 .0005353 -2.12 0.035 -.0021855 -.0000819

lncome .0062644 .0038683 1.62 0.106 -.0013363 .013865

age .001318 .0003834 3.44 0.001 .0005648 .0020713

year

1984 -.0004319 .0011763 -0.37 0.714 -.0027432 .0018794

1985 -.0010707 .0011803 -0.91 0.365 -.0033897 .0012484

1986 -.0005777 .0013086 -0.44 0.659 -.003149 .0019935

1987 -.0008722 .0015532 -0.56 0.575 -.0039241 .0021797

1988 -.001885 .001751 -1.08 0.282 -.0053256 .0015556

1989 -.0041766 .0019484 -2.14 0.033 -.0080049 -.0003482

1990 -.005266 .0021205 -2.48 0.013 -.0094325 -.0010994

1991 -.0066623 .0022348 -2.98 0.003 -.0110534 -.0022711

1992 -.008518 .0024085 -3.54 0.000 -.0132505 -.0037855

1993 -.0089399 .0025409 -3.52 0.000 -.0139324 -.0039475

1994 -.0096297 .0026961 -3.57 0.000 -.0149273 -.0043321

1995 -.0101123 .0028675 -3.53 0.000 -.0157465 -.0044781

1996 -.0110766 .0030447 -3.64 0.000 -.017059 -.0050942

1997 -.0116075 .0032097 -3.62 0.000 -.0179142 -.0053009

_cons -.0779906 .0382942 -2.04 0.042 -.153234 -.0027472

sigma_u .00575372

sigma_e .00161752

rho .92675655 (fraction of variance due to u_i)

F test that all u_i=0: F(50, 484) = 36.69 Prob > F = 0.0000

.

4.(3)更可靠,其控制了了更多随时间和地区变化的变量,消除了遗漏变量偏差的影响

5.如果安全带使用率从52%上升到90%,则死亡率下降.00372×0.38=0.0014.样本中每个周平均每一百万英里每年的死亡案例是41447.所以死亡的人数为.0014×41447=58(人)

6.

xtreg sb_useage primary secondary speed65 speed70 ba08 drinkage21 lncome age i.year ,fe

Fixed-effects (within) regression Number of obs = 556

Group variable: fips Number of groups = 51

R-sq: within = 0.8420 Obs per group: min = 8

between = 0.4612 avg = 10.9

overall = 0.7035 max = 15

F(22,483) = 117.01

corr(u_i, Xb) = 0.0527 Prob > F = 0.0000

sb_useage Coef. Std. Err. t P>|t| [95% Conf. Interval]

primary .2055968 .0281329 7.31 0.000 .1503189 .2608748

secondary .1085184 .0104198 10.41 0.000 .0880448 .1289921

speed65 .0228486 .0152648 1.50 0.135 -.007145 .0528422

speed70 .0120424 .0120511 1.00 0.318 -.0116368 .0357215

ba08 .0037584 .0124747 0.30 0.763 -.0207529 .0282698

drinkage21 .0107149 .0196901 0.54 0.587 -.0279739 .0494037

lncome .0582732 .1372399 0.42 0.671 -.2113878 .3279343

age .0138232 .0136039 1.02 0.310 -.012907 .0405534

year

1984 .0041175 .0417946 0.10 0.922 -.0780042 .0862392

1985 .0575165 .0421119 1.37 0.173 -.0252285 .1402616

1986 .1073522 .0463088 2.32 0.021 .0163605 .1983438

1987 .124064 .0548844 2.26 0.024 .0162223 .2319057

1988 .1390916 .0618632 2.25 0.025 .0175373 .2606458

1989 .1702315 .0688722 2.47 0.014 .0349054 .3055575

1990 .1897742 .0749006 2.53 0.012 .042603 .3369454

1991 .2370685 .0787038 3.01 0.003 .0824243 .3917127

1992 .2633958 .084779 3.11 0.002 .0968146 .4299769

1993 .2824178 .0894092 3.16 0.002 .1067387 .4580968

1994 .2983707 .0948786 3.14 0.002 .1119449 .4847965

1995 .2959065 .100981 2.93 0.004 .0974902 .4943228

1996 .2875623 .1073509 2.68 0.008 .0766299 .4984948

1997 .2977333 .1131917 2.63 0.009 .0753243 .5201423

_cons -.8930446 1.355643 -0.66 0.510 -3.55673 1.770641

sigma_u .07907692

sigma_e .05722479

rho .65630432 (fraction of variance due to u_i)

F test that all u_i=0: F(50, 483) = 12.82 Prob > F = 0.0000

.

Primary和secondary的系数估计都是正的且是统计显著,主要执行方法会提高安全带使用率20.6%,次要使用方法会提高10.9%。

7.计算略(22人)

第11章第二题

1.gen age2=age*age

reg smoker smkban female age age2 hsdrop hsgrad colsome colgrad black hispanic,r

Linear regression Number of obs = 10000

F( 10, 9989) = 68.75

Prob > F = 0.0000

R-squared = 0.0570

Root MSE = .41631

Robust

smoker Coef. Std. Err. t P>|t| [95% Conf. Interval]

smkban -.0472399 .0089661 -5.27 0.000 -.0648153 -.0296645

female -.0332569 .0085683 -3.88 0.000 -.0500525 -.0164612

age .0096744 .0018954 5.10 0.000 .005959 .0133898

age2 -.0001318 .0000219 -6.02 0.000 -.0001747 -.0000889

hsdrop .3227142 .0194885 16.56 0.000 .2845128 .3609156

hsgrad .2327012 .0125903 18.48 0.000 .2080217 .2573807

colsome .1642968 .0126248 13.01 0.000 .1395495 .189044

colgrad .0447983 .0120438 3.72 0.000 .02119 .0684066

black -.0275658 .0160785 -1.71 0.086 -.0590828 .0039513

hispanic -.1048159 .0139748 -7.50 0.000 -.1322093 -.0774226

_cons -.0141099 .0414228 -0.34 0.733 -.0953069 .0670872

. test hsdrop hsgrad colsome colgrad

( 1) hsdrop = 0

( 2) hsgrad = 0

( 3) colsome = 0

( 4) colgrad = 0

F( 4, 9989) = 140.09

Prob > F = 0.0000

.probit smoker smkban female age age2 hsdrop hsgrad colsome colgrad black hispanic

Iteration 0: log likelihood = -5537.1662

Iteration 1: log likelihood = -5238.7464

Iteration 2: log likelihood = -5235.868

Iteration 3: log likelihood = -5235.8679

Probit regression Number of obs = 10000 LR chi2(10) = 602.60 Prob > chi2 = 0.0000 Log likelihood = -5235.8679 Pseudo R2 = 0.0544

smoker Coef. Std. Err. z P>|z| [95% Conf. Interval]

smkban -.15863 .0289964 -5.47 0.000 -.2154619 -.1017981 female -.1117313 .0288205 -3.88 0.000 -.1682183 -.0552442 age .0345114 .0069362 4.98 0.000 .0209167 .048106 age2 -.0004675 .0000828 -5.65 0.000 -.0006299 -.0003052 hsdrop 1.14161 .0720428 15.85 0.000 1.000409 1.282812 hsgrad .8826708 .059778 14.77 0.000 .7655081 .9998336 colsome .6771192 .0609347 11.11 0.000 .5576893 .7965491 colgrad .2346839 .0650598 3.61 0.000 .107169 .3621988 black -.0842789 .0526498 -1.60 0.109 -.1874705 .0189127 hispanic -.3382743 .0477535 -7.08 0.000 -.4318694 -.2446792 _cons -1.734926 .152582 -11.37 0.000 -2.033982 -1.435871

.

.

. test hsdrop hsgrad colsome colgrad

( 1) [smoker]hsdrop = 0

( 2) [smoker]hsgrad = 0

( 3) [smoker]colsome = 0

( 4) [smoker]colgrad = 0

chi2( 4) = 447.34

Prob > chi2 = 0.0000

(2)变量smkban系数的t值为-5.47,拒绝原假设。

线性概率模型中的t值为-5.27,两者相近。

(3) 两个模型的F统计值都是显著的,故拒绝该假设。

(4)没有吸烟禁令时A先生吸烟的概率为

Ф(-1.735+0.035×20-0.00047×20×20+1.142×1)=0.467

同理有吸烟禁令时A先生吸烟的概率为

Ф(-1.735-0.159+0.035×20-0.00047×20×20+1.142×1)=0.405,

所以禁止吸烟的概率效应为6.3%。

(5)计算略

6.线性估计,所以禁烟对吸烟率的边际影响不依赖其它变量对吸烟率的影响,所以禁烟的概率效应均为-0.0472。

7.Probit和线性估计模型不同。

线性估计中,工作场所禁烟对吸烟率的边际影响不依赖于吸烟者的其它特征。

probit模型中,工作场所禁烟对吸烟率的边际影响依赖于吸烟者的其它特征。

在本例中,probit模型更有意义。

8.双向因果关系。例如制定禁烟令的公司会不会一开始就有很少的吸烟者?吸烟者会去寻找没有禁烟令的工作么?一些有禁烟令的州可能一开始就比没有禁烟令的州的吸烟者人少么?

12.

1.

weeksm1 Coef. Std. Err. t P>|t| [95% Conf. Interval]

morekids -5.386996 .0886093 -60.79 0.000 -5.560667 -5.213324

_cons 21.06843 .0546629 385.42 0.000 20.96129 21.17557

由系数-5.387可知有两个及以上孩子的妇女工作时间比孩子更少的妇女工作时间少5.387个小时。

2.生育能力和劳动供给都是选择变量,工作时间超过均值的妇女一般具有少生孩子的倾向。这意味着生育能力与回归误差正相关,所以OLS估计量是有误的。

3.reg morekids samesex

Source SS df MS Number of obs = 254654

F( 1,254652) = 1237.22

Model 290.247937 1 290.247937 Prob > F = 0.0000

Residual 59740.5888254652 .234596975 R-squared = 0.0048

Adj R-squared = 0.0048

Total 60030.8368254653 .235735832 Root MSE = .48435

morekids Coef. Std. Err. t P>|t| [95% Conf. Interval]

samesex .0675253 .0019197 35.17 0.000 .0637626 .0712879

_cons .3464248 .001365 253.79 0.000 .3437494 .3491002

“Morekinds”对于“samesex”的线性回归方程式是:

Morekids=0.346 + 0.066samesex

(0.01)(0.002)

所以,当一对夫妻是samesex=1时比“一对夫妻samesex=0”高6.6%的可能性多生一个孩子。这种影响是是显著的。

(4)samesex模型中任何其他(包括误差项)变量是无关的,因此,工具变量是外生的。从(3)可得,第一阶段的F统计量是很大的(F=1238),所以工具变量是重要的。说明“samesex”是有效的工具变量。

(5)由(4)可知,samesex不是弱工具变量

(6)

Morekids 的估计值是-6.313

(7). ivreg weeksm1 agem1 black hispan othrace (morekids=samesex),r

结果没有重大改变。原因是“samesex ”与“agem1、black 、hispan 、othrace ”无关,因此不会造成遗漏变量误差,无多大影响。

Instruments: samesex

Instrumented: morekids

_cons 21.42109 .4872506 43.96 0.000 20.46609 22.37609

morekids -6.313685 1.274686 -4.95 0.000 -8.812035 -3.815335

weeksm1 Coef. Std. Err. t P>|t| [95% Conf. Interval]

Robust

Root MSE = 21.715

R-squared = 0.0139

Prob > F = 0.0000

F( 1,254652) = 24.53

Instrumental variables (2SLS) regression Number of obs = 254654

Instruments: agem1 black hispan othrace samesex

Instrumented: morekids

_cons -4.791894 .3897914 -12.29 0.000 -5.555874 -4.027913

othrace 2.130962 .2109882 10.10 0.000 1.717431 2.544493

hispan .4041802 .2607993 1.55 0.121 -.1069795 .9153399

black 11.62327 .231798 50.14 0.000 11.16896 12.07759

agem1 .8315975 .0226408 36.73 0.000 .7872221 .875973

morekids -5.821051 1.246401 -4.67 0.000 -8.263963 -3.378139

weeksm1 Coef. Std. Err. t P>|t| [95% Conf. Interval]

Robust

Root MSE = 21.385

R-squared = 0.0437

Prob > F = 0.0000

F( 5,254648) = 1390.96

Instrumental variables (2SLS) regression Number of obs = 254654

stata上机实验操作

第六章第二题: 1. 建立完成的教育年数(ED )对到最近大学的距离(Dist )的回归: . reg ed dist, robust 斜率估计值是:-0.073 2. reg ed dist bytest female black hispanic incomehi ownhome dadcoll cue80 stwmfg80,robust Dist 对ED 的效应估计是:-0.032 3. 系数下降50%,存在很大差异,(1)中回归存在遗漏变量偏差 4. di e(r2_a)(可看到调整后的R2) 第一问中=0.0074 调整的2R =0.00718796 _cons 13.95586 .0378112 369.09 0.000 13.88172 14.02999 dist -.0733727 .0134334 -5.46 0.000 -.0997101 -.0470353 ed Coef. Std. Err. t P>|t| [95% Conf. Interval] Robust Root MSE = 1.8074 R-squared = 0.0074 Prob > F = 0.0000 F( 1, 3794) = 29.83 Linear regression Number of obs = 3796 . reg ed dist , robust 2R

第二问中=0.2788 2R = 0.27693235 可以得到第二问中的拟合效果要优于第一问。 第二问中相似的原因:因为n 很大。 5. Dadcoll 父亲有没有念过大学: 系数为正(0.6961324)衡量父亲念过大学的学生接受的教育年数平均比其父亲没有年过大学的学生多。 .0232052 -.0517777 1)原因:这些参数在一定程度上构成了上大学的机会成本。 2)它们的系数估计值的符号应该如此。当Stwmfg80增加时,放弃的工资增加,所以大学入学率降低了;因而Stwmfg80的系数对应为负。 而当Cue80增加时,人们会发现找工作很困难,这降低上大学的机会成本,所以平均的大学入学率就会增加;因而Cue80的系数对应为正。 7.带入计算即可(14.75) 8.同7.(14.69) 第七章第二题 1. . reg course_eval beauty,robust 95%置信区间见上表。 2. 2R _cons 3.998272 .0253493 157.73 0.000 3.948458 4.048087 beauty .1330014 .0323189 4.12 0.000 .0694908 .1965121 course_eval Coef. Std. Err. t P>|t| [95% Conf. Interval] Robust Root MSE = .54545 R-squared = 0.0357 Prob > F = 0.0000 F( 1, 461) = 16.94 Linear regression Number of obs = 463

Stata实验指导书.doc-武汉理工大学

实验指导书 武汉理工大学政治与行政学院 2013年4月

实验一STATA基本介绍 实验目的 掌握什么是STATA?该软件具有什么功能?熟悉STATA菜单各项的含义,数据输入、存储以及数据运算与处理等。 实验内容 1.什么是STATA 2.STATA的菜单 3.数据输入与保存 4、数据文件的合并与汇总 5.数据编辑整理 6.变量重新赋值 7.数据的运算与新变量的生成 8.数据的排序 9.数据分组 基本步骤 当打开STATA后,展现在我们面前的界面如下: 菜单栏共有11个选项,常用的有以下8个选项: 1.文件:文件管理菜单,有关文件的调入、存储、显示和打印等; 2.编辑:编辑菜单,有关文本内容的选择、拷贝、剪贴、寻找和替换等; 3.显示:显示菜单,有关状况栏、工具条、网格线是否显示,以及数据显示的字体类型、大小等设置; 4.数据:数据管理菜单,有关数据变量定义、数据格式选定、观察对象的选择、排序、加权、数据文件的转换、连接、汇总等; 5.转换:数据转换处理菜单,有关数值的计算、重新赋值、缺失值替代等;

6.分析:统计菜单,有关一系列统计方法的应用; 7.图形:作图菜单,有关统计图的制作; 8.使用程序:用户选项菜单,有关命令解释、字体选择、文件信息、定义输出标题、窗口设计等; 实验报告 自己草拟10名学生的序号、姓名、统计学成绩、管理学成绩、每天学习时间特征资料。(以自己的姓名作为第一号,并以自己的名字设为文件名)要求: (1)添加性别数据特征; 粘贴处 (2)按统计学成绩由高到低排序; 粘贴处

(3)按统计学成绩数量标志进行等距分组,并进行汇总统计。 粘贴处 (4)计算生成统计学与管理学两科的总成绩与平均成绩两个变量。 粘贴处

Stata上机实验笔记

Stata上机实验 Stata 统计软件包是目前世界上最著名的统计软件之一,国外将Stata与SAS、SPSS 一起被并称为三大权威软件。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分析工作。 Stata有什么优势? 1。Stata 的命令语句极为简洁明快,易学易记。 2。强大的帮助信息。 本地帮助 Help 命令名 在线帮助Findit 命令名 3。始终处于计量经济学和统计学的最前沿。许多Stata 程序员会针对计量经济学发展编写一些最新的程序(ADO 文件), Stata提供了严谨、简练而灵活的程序语句,用户可以编写自己的命令和函数,同时可随时到Stata 网站寻找并下载最新的升级文件。下载后可以直接使用,也可以自行修改、添加功能。(例如当前流行的面板单位根和面板门限数据,均可以安装下载使用) 不同版本对样本容量、变量个数、矩阵阶数、宏的字符长度等有着不同的限制。以SE版为例,其最大变量个数为32767,最大字符长度为244字节,最大矩阵阶数为11000(即11000 11000)。Stata默认值为:最大变量个数为5000,最大矩阵阶数为400,最大内存为10兆。如果用户需要更多的内存或者更多的变量,可以在命令栏输入如下命令进行扩展。 set maxvar 5000 <最大变量个数5000个。> set memory 50m <占内存50兆。> 最重要的有三类文件 1。文件名.dta 数据文件 2。文件名.do 命令文件 3。文件名.ado 程序文件 如果不加改变,安装时Stata会将系统程序安装到: C:\Program file\stata10 中。 将所用系统自带的一些系统数据、应用程序、帮助文件安装到 C:\Program file\stata10\ado\base 中 将所有升级程序安装到: C:\Program file\stata10\ado\update 中 1。所有的系统自带数据可以利用sysuse命令打开。 2。Use命令只能打开 C:\data 或者 D:\data 中的数据。 3。如果需要打开其他文件夹的数据,必须改变目录(例如,将自己的数据放入D:\abc) cd "D:\abc” 或者直接 file------open 特别注意:1。Stata的命令区分大小写。

stata 实验设计

1.选择合适的数据使用EXCEL软件进行均值、最大、最小、方差、标准差、分布、矩阵乘法、求逆、两变量线性回归、两变量多项式回归的求解与作图等。 2.选择一个合适的同质性DMU数据(如同类企业、单位)进行DEA运算。主要包括CCR.BCC.SBM.超效率的计算。并学会使用DEA软件 3.使用STATA软件分析数据的合并、拆分,图形式的制作(直方图、散点图、条形图、饼图)、单因素方差分析,双因素方差分析、协方差分析、单个总体假设检验、两个总体假设检验、基本的回归分析等内容 数据可查找国家统计局网站(年鉴)、各省市统计局网站 要求 1)提交打印的经济统计软件三个实验,同时提交电子版 2)以实验报告形式(实验目的、实验数据、实验软件、实验过程记录,实验结果及实验结论) 统计学实验报告 一,实验目的 练习使用excel软件求解数据的均值,最大值,最小值,方差,标准差,分布,矩阵乘法,求逆,两变量线性回归,两变量多项式回归并作出相应图形。二,实验数据

三,实验软件 Excel软件 四,实验过程记录 选取《各地区城乡居民人民币储蓄存款(年底余额)》中2007年全国各省市的数值计算均值,最大值,最小值,方差,标准差等。

得到2007年全国各地区城乡居民人民币储蓄存款的均值为5341.26亿元。 得到2007年全国各地区城乡居民人民币储蓄存款的最大值为22243.39亿元。 利用描述统计得出

选取2002年的到2007 的全国城乡居民人民币储蓄存款余额与国民生产总值的值,得到下表,进行回归分析。 做出折线图如下: 一元回归分析如下: y=1.4621x-14260

计量经济学stata上机命令整理

计量经济学上机命令整理 实验一 edit 打开数据编辑器 browse 打开数据浏览器 rename 对变量重新命名 label save describe 对数据集简要描述 sort 排序例如:list in -10/-1 list 显示变量的数值 Generate 缩小:gen 生成新的变量后面可以接if条件句 Replace 替换append 覆盖 Summarize 缩写:su 总结后面可以接if条件句 实验二 twoway (scatter y x)(connected ey_x x) 在该散点图上,做出条件均值点 sc y x||lfit y x 画出线图和散点图 Reg y x 做出回归 Rename ** y **指原变量名用于修改变量名字 graph twoway scatter y x 画出y x 的二维散点图 Line y x 做出y x 的线条图 egen Ey_x=mean(y),by(x) 求在同一x水平下,求y的均值 实验三 Regress y x1 x2 ........做多元回归 Precict e,re 预测方差 Sort e 按照方差排序 Cor y x 测试y与x的相关程度 Pwcorr y x 也是测试y与x的相关程度 Set obs 90 (90为任意一个数字),增加一个或者多个样本值 Replace x=980 in 90 为第90个样本值赋值(980为任意一个数字) Predict yhat 预测y的估计值 Display invttail(n,p) n为自由度;p为概率(一般为0.025)。用来求t分布的t 值 Display ttail(n,t)知道t值求T

相关主题