一般来说,模型参数的后验分布可以高估或低估“真实”后验不确定性的不同方面。后验分布通常高估了不确定性,因为人们通常不会在模型中包含一个人的所有实质性知识;因此,根据一个人的实质性知识检查模型的效用。另一方面,后验分布在两个方面低估了不确定性:首先,假设模型几乎肯定是错误的,因此需要对观察到的数据进行后验模型检查——其次,其他合理的模型可以同样很好地拟合观察到的数据,因此需要进行敏感性分析。在本节中,我们考虑由于存在合理的替代模型而导致的后验推断的不确定性,并讨论如何扩展模型以解释这种不确定性。替代模型的不同之处在于先验分布的规范、似然性的规范或两者都有。模型检查和敏感性分析相辅相成:在进行敏感性分析时,只需要考虑符合实际知识和观测数据的模型。
敏感性分析的基本方法是对同一问题拟合多个概率模型。通常可以通过用代表实质性先验知识的适当分布替换不适当的先验分布来避免敏感性分析中的意外。此外,不同的问题受模型变化的影响不同。自然地,与关于均值或极端分位数的推断相比,关于后验分布中位数的后验推断通常对模型的变化更不敏感。类似地,对与观察数据最相似的量的预测推断是最可靠的;例如,在回归模型中,内插对线性假设的敏感度通常低于外推。有时可以使用“稳健”模型进行敏感性分析,以确保异常观察(或分层模型中更大的分析单元)不会对推论产生不当影响。典型的例子是使用 t 分布代替正态分布(用于抽样或人口分布)。这样的模型可能很有用,但需要更多的计算工作。
扩展模型有几个可能的原因:
- 如果模型在某些重要方面不适合数据或先验知识,则应该以某种方式对其进行更改,可能通过添加足够的新参数来实现更好的拟合。
- 如果建模假设有问题或没有真正的理由,可以扩大模型的类别(例如,用 t 替换正常值)。
- 如果考虑两个不同的模型 p1(y, θ) 和 p2(y, θ),可以使用连续参数化将它们组合成一个更大的模型,将原始模型作为特殊情况包括在内。例如,第 5 章中的 SAT 辅导的层次模型是完全汇集(complete-pooling) (τ = 0) 和非汇集(no-pooling) (τ = ∞) 模型的连续推广。
- 可以扩展模型以包含新数据;例如,先前单独分析的实验可以插入到分层人口模型中。另一个常见的例子是将 y|x 的回归模型扩展为 (x, y) 的多元模型,以便对 x 中的缺失数据进行建模。
模型扩展的所有这些应用都具有相同的数学结构:旧模型 p(y,θ) 嵌入或替换为新模型 p(y,θ,φ) 或更一般的 p(y,y*,θ,φ),其中y*表示添加的数据。
新参数 φ 和旧模型参数 θ 的联合后验分布为:
条件先验分布p(θ|φ) 和似然性p(y, y∗|θ,φ) 由扩展族确定。φ的边际分布是通过对θ 求平均得到的:
在贝叶斯模型的任何扩展中,必须指定一组先验分布 p(θ|φ) 来替换旧的 p(θ),以及超参数上的超先验分布 p(φ)。这两项任务通常都需要思考,尤其是对于非信息性先验分布。
我们通常只有在大量数据分析后才能构建模型的最终形式,这会导致与多重比较和预测误差估计等经典问题相关的担忧。如第 4.5 节所述,多重比较的贝叶斯处理使用分层建模,同时估计所有可能比较的联合分布并适当缩小这些分布(例如,在八学派的分析中,$θ_{j} $ 都缩小到 µ,因此差异$θ_{j}
在回归问题中,通常有许多不同的看似合理的方法来建立模型,这些不同的模型可以给出截然不同的答案。以预测变量的形式将现有信息放在一起几乎总是观察性研究中的一个问题,并且可以被视为模型规范问题。即使只有少数预测变量可用,我们也可以在可能的转换和交互中进行选择。
我们更喜欢在回归中包含尽可能多的预测变量,然后将它们缩放并分批到方差分析结构中,以便在某种程度上考虑它们而不是离散的输入或输出。即便如此,在选择要包含在层次模型本身中的变量时也必须做出选择。用于离散模型平均的贝叶斯方法在这里可能会有所帮助,尽管我们还没有在我们自己的研究中使用这种方法。
在观察性研究中为因果推断建立回归模型时,会出现一个相关且更基本的问题。在此,实质性背景中变量之间的关系是相关的,如在主要分层方法中,其中,在构建模型之后,需要额外的分析来计算相关因果估计,这些估计通常与回归系数不同。
我们经常发现向模型添加参数会使其更加灵活。例如,在正常模型中,我们更喜欢估计方差参数而不是将其设置为预先选择的值。在下一阶段,t 模型比普通模型更灵活,这已被证明在许多应用中具有实际意义。但为什么不这样做呢?在准确性和便利性之间总有一个平衡点。预测模型检查可以揭示严重的模型不匹配,但我们还没有很好的一般原则来证明我们选择基本模型的合理性。随着分层模型的计算变得越来越常规,我们可能会开始使用更精细的模型作为默认值。很难为模型选择提供适当的一般建议;与模型构建一样,需要科学判断,方法必须因环境而异。
对于模型检查和敏感性分析,我们推荐的方法是检查实质性重要参数和预测量的后验分布。然后我们将后验分布和后验预测与实质性知识(包括观测数据)进行比较,并注意预测失败的地方。应该使用差异来建议模型可能的扩展,可能就像将真实的先验信息放入先验分布或在回归中添加非线性项等参数一样简单,或者可能需要一些实质性的重新思考,如总统选举模型中南方各州的预测差,如下:
有时模型的假设比显而易见的要强。例如,具有许多预测变量和系数的平稳先验分布的回归往往会高估系数之间的变化,就像对八所学校的独立估计过于分散一样。如果我们发现模型不适合其预期目的,我们有义务寻找适合的新模型;分析很少(如果有的话)仅仅通过拒绝某个模型来完成。
如果敏感性分析揭示了问题,基本的解决方案是将其他似是而非的模型包含在先验规范中,从而形成反映模型规范中不确定性的后验推断,或者简单地报告对手头数据无法检验的假设的敏感性。有时必须得出结论,就实际目的而言,可用数据无法有效回答某些问题。在其他情况下,可以添加信息来约束模型,以允许进行有用的推理;下面给出了一个来自非正态总体的简单随机样本的例子,其中感兴趣的数量是总体总数。
尽管我们尽了最大努力来包含信息,但所有模型都是近似的。因此,检查模型对数据和先验假设的拟合总是很重要的。出于模型评估的目的,我们可以将贝叶斯数据分析的推理步骤视为一种复杂的方法,以这种方式探索所提出模型的所有含义,以便将这些含义与观察到的数据和未包含的其他知识进行比较。例如,第 6.4 节说明了针对心理学研究中两个不同问题的数据拟合模型的图形预测检查。在每种情况下,拟合模型都捕获了数据的一般模式,但遗漏了一些关键特征。在第二个示例中,发现模型失败会导致模型改进——患者和症状参数的混合分布更好地拟合数据,如下图所示。
后验推论通常可以用图形来概括。对于简单问题或一维或二维总结,我们可以绘制后验模拟的直方图或散点图。对于较大的问题,汇总图很有用。几个独立推论的图有助于总结迄今为止的结果并建议未来的模型改进。
在检查模型时,必须牢记它的用途。例如,第 1.6 节中足球比分的正态模型准确地预测了获胜的概率,但对比赛完全打平的概率给出了糟糕的预测。
我们还应该知道自动贝叶斯推理的局限性。即使模型很好地拟合了观察到的数据,也可能对某些感兴趣的数量产生不良的推断。
看到当模型未经模型检查时可能出现的陷阱,令人惊讶且具启发性。
我们考虑从 n = 100 的简单随机样本中估计 1960 年纽约州 N = 804 个市镇的总人口的问题——一个人为的例子,但它说明了模型检查在避免严重错误推理方面的作用。表 7.2 总结了这次“调查”的总体以及两个简单的随机样本(这是第一个也是唯一选择的样本)。 由于了解总体情况,两个样本都显得特别不典型; 根据所提供的汇总统计数据,样本 1 代表总体,而样本 2 的值太大。 因此,乍一看,估计总体总数似乎很简单,可能高估了第二个样本的总数。
我们首先尝试从样本 1 估计总体总数,假设总体中的 N 个值来自 N(µ,
当然,适度智能地使用统计模型应该会产生更好的答案,因为正如我们在表 7.2 中看到的那样,总体和样本 1 都远非正常,而标准区间最适合正常总体。此外,提前知道总体中的所有值都是正数。
我们在假设完整数据中的 N = 804 个值遵循对数正态分布的假设下重复上述分析:log
我们的主要原则之一是检查模型的拟合。 因为我们对总体总数
超越对城市规模的对数正态模型的自然概括是幂变换正态族,它向模型添加了一个额外的参数 φ; 有关详细信息,请参阅附录上的 (7.19)。 值 φ = 1 和 0 分别对应于未变换的正态模型和对数正态模型,其他值对应于其他变换。
要将转换后的正态族拟合到数据$y_{obs}$,最简单的计算方法是将正态模型拟合到几个 φ 值处的转换数据,然后计算 φ 的边际后验密度。使用来自样本 1 的数据,φ 的边际后验密度在值 -1/8 附近强烈达到峰值(假设 φ 的先验分布均匀,鉴于相对信息可能性,这是合理的)。基于扩展模型下的 100 个模拟值,$y_{total}$ 的 95% 区间为 [5.8 ×$10^{6} $ , 31.8 × $10^{6} $ ]。关于后验预测检查,样本总数的 100 个模拟重复中有 15 个大于实际样本总数;该模型在这个意义上非常适合。
也许我们已经学会了如何成功地应用贝叶斯方法来估计具有此类数据的总体总数:使用幂变换族并通过模拟绘图总结推理。但我们并没有对这个猜想进行严格的检验。我们从对数转换开始,并获得了最初看起来不错的推论,但我们看到后验预测检查表明模型在预测样本总数方面缺乏拟合。然后,我们扩大了变换族并在更大的模型下进行了推理(或者,在这种情况下,等效地,找到了最合适的变换,因为变换能力是由数据如此精确地估计的)。扩展程序似乎在 95% 的区间是合理的意义上起作用;此外,对样本总数的事后预测检查是可以接受的。为了检查这个扩展程序,我们在第二个随机样本 100 上进行尝试。
对来自第二个样本的总体总数的基于标准正态的推断产生 [−3.4 × $10^{6} $ , 65.3 × $10^{6} $ ] 的 95% 区间。用样本总数代替下限给出[3.9 × $10^{6} $ , 65.3 × $10^{6} $ ] 的宽区间。按照样本 1 中使用的步骤,将样本 2 数据建模为对数正态导致
在这个例子中,我们有幸知道正确的值(实际总人口为 1380 万),从这个角度来看,对权力家族下的人口总数的推断是很糟糕的:例如,100 的中位数
到底是怎么回事?为什么样本2的总体推断在一个拟合较好的模型(即假设y−1/4 i为正态分布)下比在一个拟合较差的模型(即假设log$y_{i}$为正态分布)下更不现实?
本例中推论的问题不是模型无法拟合数据,而是数据固有的无法区分对估计总体总数$y_{total}$ 具有不同影响的替代模型。$y_{total}$ 的估计在很大程度上取决于城市大小分布的上限,但是当我们拟合幂族等模型时,这些模型的右尾(尤其是超过 99.5% 分位数)正受到管理变化的显着影响通过模型与数据主体的拟合(介于 0.5% 和 99.5% 分位数之间)。$y_{total}$ 的推论实际上严重依赖于超过对应于最大观察到的${ y_{obs}}_{i}$的分位数的尾部行为。为了估计总数(或平均值),我们不仅需要一个合理拟合观测数据的模型,而且我们还需要一个能够提供超出数据区域的真实外推的模型。对于此类推断,我们必须依赖于先前的假设,例如指定最大可能的自治市规模。
更明确地说,对于我们的两个样本,幂族的三个参数基本上足以为观测数据提供合理的拟合。但是为了从大小为 100 的简单随机样本中获得对纽约州人口的现实推论,我们必须限制大城市的分布。事实上,我们被来自样本 2 的样本总数的后验模拟的特定值警告了,其中复制样本总数的 100 个模拟中有 10 个大于 3 亿!
用于批判幂变换正态模型的实质性知识也可用于改进模型。 假设我们知道没有一个城市的人口超过 5 ×
基于$y_{i}$的简单未变换正态模型的$y_{total}$ 推论并不可怕,即使没有提供城市规模的上限。为什么?在正态模型下对$y_{total}$ 的估计基本上仅基于${\bar{y}}{obs} $ 的假设正态抽样分布和 ${s{obs}}^{2}
在实践中常规地估计总数不需要广泛的建模和模拟。优秀的调查从业者都知道,简单的随机样本不是用于估计高度偏斜总体中的总数的好调查设计。如果分层变量可用,人们更愿意对大城市进行过度抽样(例如,对纽约市的所有五个行政区、大部分城市和较小比例的城镇进行抽样)。
然而,不应忽视的是,我们抽取的简单随机样本虽然对于估计总体总数并不理想,但在没有强加先验限制的情况下回答许多问题是令人满意的。
例如,考虑对 804 个城市的中位数规模进行推断。使用来自样本 1 的数据,模拟 95% 后验区间在三个模型下的中位数城市规模:(a) 对数正态,(b) 幂变换的正常家庭,和 (c) 以 5 ×$10^{6} $倍截断的幂变换的正常家庭分别是 [1800, 3000]、[1600, 2700] 和 [1600, 2700]。基于样本 2 的可比较区间为 [1700, 3600]、[1300, 2400] 和 [1200, 2400]。一般来说,更好的模型往往会给出更好的答案,但对于手头数据稳健的问题,例如从我们的大小为 100 的简单随机样本中估计中位数,效果相当微弱。对于此类问题,先验约束并不是非常关键,即使是相对不灵活的模型也能提供令人满意的答案。此外,对于所有这些模型(但对于未转换的正态模型),样本中位数的后验预测检查看起来很好——观察到的样本中位数接近模拟样本中位数分布的中间。
我们从这个例子中学到了什么一般经验? 前两个消息特定于示例,并解决了覆盖真实人口总数的推断的准确性。
-
对数正态模型可能对总体总数产生不准确的推论,即使它看起来与观察数据相当吻合。
-
将对数正态族扩展到更大、更适合的模型,例如幂变换族,可能会导致对总体的推断不太现实。
这两点不是对对数正态分布或幂变换的批评。 相反,当使用未经后验预测检查(用于与感兴趣的估计相关的测试变量)和现实检查的模型时,它们会提供警告。 在这种情况下,“更适合数据意味着更好的模型,进而意味着更好的现实世界答案”的幼稚说法不一定正确。 统计答案依赖于先验假设和数据,而更好的现实世界答案通常需要包含更现实的先验假设(例如市政规模的界限)并提供更好的数据拟合模型。 这种评论自然会导致包含前两点的一般信息。
-
一般而言,推论可能对观测数据无法解决的总体中值的潜在分布特征很敏感。 因此,为了获得好的统计答案,我们不仅需要拟合观察数据的模型,还需要:
(a) 这些模型的灵活性,以允许规范观察到的数据没有充分解决的现实潜在特征,例如分布极端尾部的行为,或
(b) 对于所收集的数据类型而言,问题是可靠的,即人口值的所有相关潜在特征都由观察值充分解决。
寻找满足 (a) 的模型是比寻找满足 (b) 的问题更通用的方法,因为统计学家经常面临需要某种答案的困难问题,并且没有摆出简单(即稳健)的奢侈 问题在他们的位置。 例如,出于环境原因,使用周围地理区域的土壤样本估计制造工厂排放的污染物总量可能很重要,或者,为了编制医疗保险计划的预算,可能 需要从患者样本中估计医疗费用总额。 这些问题本质上是不可靠的,因为它们的答案取决于基础分布的极端尾部的行为。 估计更可靠的人口特征,例如土壤样本中污染物的中位数或患者的医疗费用中位数,并不能解决此类示例中的基本问题。
相关的推理工具,无论是贝叶斯还是非贝叶斯,都不能没有假设。 贝叶斯推理的稳健性是数据、先验知识和正在考虑的问题的共同属性。 对于许多问题,统计学家可能能够定义所研究的问题,以便得到可靠的答案。 然而,有时,实际的、重要的问题不可避免地不可靠,推论对手头数据无法解决的假设很敏感,然后一个好的贝叶斯分析表达了这种敏感性。
1.幂变换的正态模型:对于全正数据,正态分布族的自然扩展是通过幂变换,用于各种环境,包括回归模型。 为简单起见,考虑单变量数据 y = (
有许多应用贝叶斯分析的例子,其中已经检查了对模型的敏感性,例如 Racine 等人。 (1986)、Weiss (1994) 和 Smith、Spiegelhalter 和 Thomas (1995)。 Calvin 和 Sedransk (1991) 提供了一个比较各种贝叶斯和非贝叶斯模型检查和扩展方法的例子。
在 Draper (1995) 和 O’Hagan (1995) 的文章以及随附的讨论中,出现了关于模型选择和平均的各种观点。 我们建议读者阅读这些文章及其参考资料,以进一步讨论这些方法并提供示例。 因为我们强调模型的连续族而不是离散的选择,所以贝叶斯因子在我们的贝叶斯统计方法中很少相关。 参见 Raftery (1995) 和 Gelman and Rubin (1995) 关于这一点的两种截然不同的观点。
本章的最后一节是对 Rubin (1983a) 的详细阐述。


