2023年4月25日,StataCorp正式发布Stata 18版本,Stata 18很多功能都有大的更新或者功能扩展,具体更新主要包括以下20个方面:
1. Bayesian model averaging
2. Causal mediation analysis
3. Tables of descriptive statistics
4. Heterogeneous DID
5. Group sequential designs
6. Multilevel meta-analysis
7. Meta-analysis for prevalence
8. Robust inference for linear models
9. Wild cluster bootstrap
10. Local projections for IRFs
11. Flexible demand system models
12. TVCs with interval-censored Cox model
13. Lasso for Cox model
14. RERI
15. IV quantile regression
16. IV fractional probit model
17. Alias variables across frames
18. Data Editor enhancements
19. Do-file Editor enhancements
20. All-new graph style
此外,还有其他新增功能:
• Corrected and consistent AIC
• Model selection for ARIMA and ARFIMA
• GOF plots for survival models
• New spline functions
• Graph colors by variable
• Create, load, and save sets of frames
• Boost-based regular expressions
• Vectorized numerical integration, and
• New reporting features in putdocx, putexcel, and putpdf
1. Bayesian model averaging (BMA)
过去,您选择一个模型,并在此模型的基础上进行分析。结果也是以所选择的模型为条件。但是,当存在多个可信模型的情况时,这种方法可能就不可靠了。模型平均允许您基于多个模型进行分析,从而在结果中考虑模型的不确定性。BMA根据贝叶斯原理解释模型的不确定性,贝叶斯原理可以普遍应用于任何数据分析。在回归设置中,模型不确定性描述了回归模型中应包含哪些预测因子的不确定性。
新命令bmaregress执行线性回归的BMA,可以用于推理、预测,如果需要,甚至可以用于模型选择。比如:
. bmaregress y x1 x2
考虑结果y的所有四个可能模型,其包括或排除预测因子x1和x2,并根据每个模型基于观测数据的可能性来组合这些模型。您可以从各种先验分布中进行选择,以探索关于模型和预测因子重要性的设对结果的影响。
Postesmation命令允许您估计模型的概率,确定重要的预测因素,探索模型的复杂性,获得预测手段,评估预测性能,并对回归系数进行推断。
目前,除了Stata,其他商业软件都还没BMA程序包。它可以应用所有学科,几乎每个人都会使用线性回归。bmaregress对线性回归模型执行BMA,使研究人员能够解释应使用哪些预测因子的不确定性。
2. Causal mediation analysis
因果推断旨在识别和量化**对结果的因果影响。在因果中介分析中,我们旨在进一步探讨这种效应是如何产生的。也许运动会增加一种的水平,而这种反过来又会增加幸福感。也许进口配额增加了当地企业的市场能力,反过来又提高了商品价格。
我们经常用因果图来可视化这样的关系,例如:
有了新的mediate命令,我们可以估计**对结果的总影响,并将其分解为直接影响和间接影响(通过水平等中介)。事实上,根据利益设,可以计算多种类型的分解。此外,estat proportion报告了通过中介发生的总效应的比例。
mediate命令的结果可以是连续的、二进制的或计数的;中介可以是连续的、二进制的或计数的;并且该**结果可以是二元的、多值的或连续的。
mediate命令非常灵活。它支持24种和中介模型的组合,因此它可以应用于实际研究中出现的各种情况。因果推理问题很自然的应用于所有学科。
3. Tables of descriptive statisitcs
新的dtable命令可以创建一个描述性统计信息表。dtable能报告连续和分类因素变量的汇计数据。您可以为每个变量选择要报告的统计信息;从平均值、标准差、中位数、四分位间距、百分比、比例和许多其他值中进行选择。您还可以轻松地比较其他变量类别之间的统计信息。
dtable创建的表可以通过多种方式进行自定义,包括要的统计信息、数字和字符串格式、注释、标题、标签等。该表可以直接导出为Microsoft Word、Microsoft Excel、HTML、Markdown、PDF、LaTeX、SMCL或纯文本。
dtable可以很容易地创建通常称为“Table 1”的表,这是几乎所有研究论文中包含的**个表。
此命令可以应用于所有学科。这些表对于任何进行探索性分析或创建要发布表格的人都很有用。
4. Heterogeneous difference in differences (DID)
DID模型用于通过重复测量数据估计对对象(ATET)的平均效果。**效果可以是药物疗法对血压的影响,也可以是培训计划对就业的影响。与现有teffects命令提供的标准横断面分析不同,DID分析在估计ATET时控制组和时间效应,其中组确定重复测量。
异构质性DID模型还考虑了在不同时间点接受**的组所产生的**效果的变化以及组内随时间变化的效果。
设几个学区引入了一项锻炼和营养计划来改善学生的健康状况。不同的学区在不同的时间点推出该项目。设该计划对学生健康结果的影响不会随着时间的推移而改变,并且无论该计划何时通过都是一样的,这合理吗?也许不是合理。我们可以使用异构DID模型来解释潜在的效果差异。
新命令hdidregress和xthdidregression适用于异构DID模型。hdidregress处理重复的横截面数据,xthdidregression处理纵向/面板数据。
异构DID在较近世界各地的许多Stata会议上都是一个热门话题。现有的很多用户都对此感兴趣。
5. Group sequential designs (GSDs)
GSDs是一种适应性设计,如果研究人员发现有令人信服的证据表明**有效或无效,他们可以提前停止试验。
设我们想设计一项研究来测试一种化疗是否对**有效,并且我们希望在几年内收集数据。GSDs允许我们在收集数据期间进行分析,而不是在收集完所有数据后进行一次分析。收集数据期间的分析都提供了停止试验或继续收集数据的机会。如果有强有力的证据表明试验无效,也可以提前停止;这避免了额外的参与者受到无效**。
Stata 18为GSDs提供了一套命令。新的gsbounds命令根据分析次数(也称为外观)、所需的总体Type I误差和所需的功效来计算有效性和无效性界限。您可以从七种边界计算方法中进行选择,选择是使用经典方法还是错误损耗方法,以及选择保守或不太保守的边界法进行早期分析。新的gsdesign命令计算有效性和无效性边界,并为中期和较终分析提供样本量,以测试均值、比例和幸存函数。
通过图表可以很容易地可视化所有中期和较终分析的边界。
执行起来非常的方便。命令语法遵循我们对效能命令的直接语法。通过点击接口可以很容易地访问结果。它很强大。样本量计算可以扩展到通过gsdesign可用的均值、比例和幸存者函数的测试之外,因为用户可以*用户定义的方法。
此命令适合药学研究人员。任何设计临床试验的人都会感兴趣;这可以扩展到临床心理学家和其他医学研究人员。
6. Multilevel meta-analysis
当研究人员想要分析多项研究的结果时,他们会使用meta分析来结合结果并估计总体效应大小。现有的meta 套件用于进行标准和多元meta分析。
有时,报告的效应大小嵌套在更高级别的分组中,如地理位置(州或国家)或行政单位(学区)。同一群体(例如,地区)内的效应大小可能相似,因此具有相关性。在这种情况下,您可以使用多级meta分析。多级meta分析的目标不仅是综合整体效应大小,而且还要考虑这种依赖性,并评估不同层次效应大小之间的可变性。新的估计命令meta meregress 和meta multilevel用于进行多级meta分析。
设我们有研究报告了两种教学方法对数学考试成绩,y以及se中y的抽样标准误差的影响(平均差异)。影响大小嵌套在学校内,学校嵌套在地区内。我们可以使用下面的命令拟合三级随机拦截模型
. meta meregress y || district: || school:, essevariable(se)
或者
. meta multilevel y, relevels(district school) essevariable(se)
如果我们有协变量,并且希望包括随机斜率,我们可以使用meta回归:
. meta meregress y x1 x2 || district: x1 x2 || school:, essevariable(se)
在拟合模型时,后估计命令可用于计算多级异质性统计,显示估计的随机效应协方差矩阵等。
语法是所有可用包中较简单的。在可以应用于随机效应的约束方面,meta回归也是较灵活的。
此功能可以应用于所有学科。任何学科的研究人员都可能希望结合以前的研究结果来估计总体效果。
7. Meta-analysis for prevalence
meta esize命令对两个样本二进制或连续数据执行meta分析。现在,它还对单样本二元数据进行meta分析,也称为比例meta分析或流行率meta分析。当汇集每个研究估计一个比例的结果时,这些类型的数据通常出现在meta分析研究中。例如,你可能有研究报告了一种特定疾病的流行率或高中辍学学生的比例。在这一设置中,效应大小,如Freeman–Tukey变换的比例或logit变换的比例,通常用于meta分析。
在meta esize之后,使用meta套件中的其他命令进行进一步分析。例如,使用meta forestplot创建森林图,通过将subgroup()选项添加到meta forestplot来执行亚组分析,使用meta summarize汇总元分析数据,或者使用meta funnelplot构建漏斗图。
患病率meta分析一直是用户要求添加到meta分析套件中的较常见功能之一。
8. Robust inference for linear models
可靠的标准误差对于在研究中得出适当的推论至关重要。Stata 18为拟合regress、areg和xtreg、fe的线性模型提供了获得标准误差和置信区间的新方法。新方法的目的是在大样本近似不起作用时提供更好的推断。也许您只有几个集群的集群数据,或者每个集群的观测数量不均衡。现在,您可以添加vce(hc2-clustervar)选项来获得hc2集群——稳健的标准错误。也许您有多个变量来标识数据中的集群。现在可以添加vce(cluster-clustvar1-clustervar2…)选项来获取多路集群标准错误。
较近,社交媒体就各种情况下标准误差的较佳选择进行了许多热烈的讨论。Stata 18能为研究提供更多标准误差的选择。
此功能适合所有学科。几乎所有的研究人员都需要拟合线性模型,并且可能对新的标准误差感兴趣。
9. Wild cluster bootstrap
当研究人员有几个集群的数据、集群之间的观测数量不均衡或两者兼有时,野自助法为稳健推理提供了另一个新的选择。新的wildbootstrap命令计算野自助法p值和置信区间,用于测试关于线性回归模型参数的简单和复合线性设。你可以输入:
. wildbootstrap regress y x1 x2 …
或者
. wildbootstrap areg y x1 x2 …, absorb(x3)
再或者
. xtset id
. wildbootstrap xtreg y x1 x2 …
分别为面板数据拟合线性回归模型、具有大伪变量集的线性回归模型或固定缺陷线性回归模型,并获得野自助法统计信息。
这与上述新的标准误差很好地结合在一起,为用户提供了许多新的工具,用于线性模型中的鲁棒推理。
10. Local projections for impulse–response functions (IRFs)
新的lpirf命令提供了IRFs局部预测。在时间序列分析中使用局部预测来估计冲击对结果变量的影响。例如,我们可以评估利率的意外变化对一个国家的产出和通货膨胀率的影响。你可以输入:
. lpirf y1 y2
以获得y1和y2的IRFs的局部预测估计。
您可以添加exog()选项来估计动态乘数,这是内生变量对外生变量冲击的反应。新的lpirf命令与现有的irf命令无缝配合,允许您创建IRFs、正交IRFs和动态乘数的图表。
与上述线性模型一样,稳健的标准误差在IRF估计中通常很重要。并提供稳健和Newey–West标准误差。
IRFs的局部预测提供了基于向量自回归(VAR)模型的IRFs的替代方案。局部预测不受模型约束;因此,它们提供了更灵活的IRF系数。局部预测也允许更容易的设检验。
此功能适合任何研究时间序列数据的人,包括经济学、政治学、金融学和公共政策的研究人员。
北京天演融智软件有限公司(科学软件网)是Stata软件在中国的授权经销商,如果您对Stata 18感兴趣,欢迎联系我们申请免费试用。