Stata的估计和检验功能强大,尤其是处理微观数据。回归是实证研究的常用方法。而线性设定下的最小二乘法(OLS)和两阶段最小二乘法(2SLS)又是应用最广泛的,应该优先掌握。先讲如何在stata中实现OLS和2SLS估计,再讲如何在选择合理的方法处理实际问题。后一部分深受Joshua Angrist教授影响,在此致谢,后面引用他的思想时会一一注明。
估计的命令简单明了,就不多说了。
reg (被解释变量) (解释变量1) (解释变量2)……
执行上面的命令后,stata会报告回归的估计结果和一些方差分析。在下方的表格中依次列出了解释变量,其系数估计值,估计值的标准误,t比率,p值,及置信度为(1-0.05)的置信区间。
拿到回归结果后,先看看符号对不对,是否显著。解释变量影响的方向和大小直接从点估计值读出,显著性由t统计量得出。在经典假设下,t比率服从t分布。t分布和标准正态分布形状相似,只是它的“尾巴”要比标准正态分布的“肥”一些。当样本量趋于无穷时,t分布的极限分布是标准正态分布,因而“肥尾”的特征逐渐消失。下表列出了不同自由度下二者的差异(Beyer 1987 “CRC Standard Mathematical Tables, 28th ed.”;Goulden 1956 “Methods of Statistical Analysis, 2nd ed.”)。可以看出,自由度超过一百时,二者的差别就已经相当小了。所以,当样本量的数量级是100或以上时,用标准正态分布的关键点作检验是比较准确的。比如,1.96是97.5%的关键点,1.64是95%的关键点。这些都是比较熟悉的。
90% 95% 97.5% 99.5%
1 3.07768 6.31375 12.7062 63.6567
2 1.88562 2.91999 4.30265 9.92484
3 1.63774 2.35336 3.18245 5.84091
4 1.53321 2.13185 2.77645 4.60409
5 1.47588 2.01505 2.57058 4.03214
10 1.37218 1.81246 2.22814 3.16927
30 1.31042 1.69726 2.04227 2.75000
100 1.29007 1.66023 1.98397 2.62589
1.28156 1.64487 1.95999 2.57588
读者读到这里可能会笑话我了。stata不是已经报告了t检验的p值和置信区间了吗?为什么不直接察看这些结果呢?原因在于实证文献往往只报告参数的估计值和标准误,需要读者自己将估计值和标准误相除来计算显著性。而且当你在写实证文章时,也应该报告参数的估计值和标准误。因为p值和置信区间是基于待估计参数等于零的原假设的,如果读者要做其他原假设并不是系数等于零的检验,或者单尾检验时,知道标准误就很方便。所以,报告标准误比报告p值更好。
和回归命令相伴使用的一个重要命令是predict。它的用处是在回归结束后得到相关的统计量。语法如下:
predict (新变量名), (统计量名)
这里的统计量名是一些选项。常用的选项有:xb(回归的拟合值。这是默认选项,即不加任何选项时,predict会给新变量赋一个拟合值。);residuals(残差);leverage(杠杆值)。后面举一个例子。
(待续)
没有评论:
发表评论