到目前为止,我们主要依靠正态分布、二项分布和泊松分布以及这些分布的分层组合来对数据和参数进行建模。然而,使用有限的分布类别会导致有限的、可能不合适的推论类别。许多问题都不在方便的模型范围内,选择模型应该是为了适应基础科学和数据,而不仅仅是为了分析或计算上的方便。如第五章所示,创建现实模型的最有用的方法是分层工作,结合简单的单变量模型。如果为了方便使用了简单模型,就必须回答以下问题:后验推断在哪些方面取决于极端的数据点和不可靠的模型假设?我们已经在第六章中讨论了这个问题的后半部分,这基本上是敏感性分析的主题。本章采用更先进的计算方法,更详细地回到这个主题。
在基于正态分布的模型中对异常值是非常"非稳健"的,一个异常的数据点会强烈影响模型中所有参数的推断,包括一些与异常值没有什么实质性联系的参数。
例如,在第5.5节的教育测试例子中,我们通过将各个学校的平均值向大平均值移动(向真实效果来自共同正态分布的先验信息移动)得到对八个治疗效果的估计,每个学校j的移动比例只由其抽样误差σj和各学校效果间的变化τ决定。假设研究中第八所学校的观察值,即第120页表5.2中的$y_{8}$,是100而不是12,那么这八个观察值就是28、8、3、7、1、1、18和100,其标准误差与表5.2中的报告相同。如果我们对这个数据集应用层次正态模型,后验分布将告诉我们τ有一个很高的值,因此每个估计值θˆj将基本等于其观察到的效果$y_{j}$。但这在实践中有意义吗?毕竟,考虑到这些假设的观察结果,第八所学校似乎有一个非常有效的SAT辅导项目,也可能这100个只是数据记录错误的结果。无论哪种情况,单一的观察值$y_{8}$对我们如何估计
在贝叶斯框架中,我们可以通过用长尾分布取代$\theta_{j}$的正态种群模型来减少反常的第八次观察的影响,这允许极端现象的发生。长尾指的是远离中心的概率含量相对较高的分布,其中"远离"的尺度是确定的。例如,相对于包含分布中50%概率的区域的直径。长尾分布包括t分布,其中最极端的情况是柯西或$\t_{1}$,以及(有限)混合模型,这些模型通常使用一个简单的分布,如正态分布的大部分值,但允许观察或参数值的离散概率来自另一个可能有不同中心的分布,这个分布通常传播范围更广。在SAT教练例子的假设性修改中,使用长尾分布对$\theta_{j}$进行分析会导致观察值100被解释为来自长尾分布的极端抽样,而不是效果的正态分布具有高方差。由此产生的分析将使第八个观察值向其他观察值缩小,但不会像前七个观察值那样(相对于它与总体平均值的距离)向其他观察值缩小。(考虑到这个假设的数据集,后验概率$Pr\left(\Theta_{8}>100y\right)$应该小于0.5,这证明了一些收缩的合理性)。
正如假设的例子所示,我们不必放弃贝叶斯原则来处理异常值。例如,一个长尾模型,如柯西分布,甚至是一个双变量混合分布(见练习17.1),仍然是$\Theta_{1},...,\Theta_{8}$的可交换先验分布,当没有区分八个学校的先验信息时,这样做是合适的。可交换先验模型的选择会影响对$\theta_{j}$的估计值的缩减方式,因此我们可以减少一个离群的目标的影响,而不是在分析中以不同的方式处理它。(这不应该取代对数据的仔细检查和检查离群值中可能的记录错误)。寻找异常值的模型(可能是为了将其从分析中移除)与不受异常值影响的稳健模型之间有时会有区别。在贝叶斯框架中,这两种方法不应该被区分开来。例如,使用混合模型(如第22章中的有限混合模型或标准模型的过度分散版本)不仅会使极端观测值被归类为来自高方差的混合成分(而不是简单地出现"异常值"),而且还意味着这些点对估计值(如群体平均值和中位数)的推断影响较小。
除了补偿异常值外,稳健模型还可用于评估后验推断对模型假设的灵敏度。例如,我们可以使用一个稳健的模型,用t分布来代替正态分布,通过将自由度从大到小的变化来评估对正态假设的灵敏度。正如第6章所讨论的,灵敏度分析的基本思想是尝试各种不同的分布的先验模型,观察其对感兴趣的估计量和预测量的后验推断有什么不同。一旦一个模型已经从后验分布中提取了样本,通常就可以直接使用重要性重采样从替代模型中提取样本,并且有足够的准确性来检测模型之间推断的主要差异(见第17.3节)。如果感兴趣估计值的后验分布对模型假设高度灵敏,则可能需要迭代模拟方法来进行更精确的计算。
从某种意义上说,第5.5节中对SAT辅导实验的大部分分析是一种灵敏度分析,其中允许参数τ在0到∞之间变化。正如第5.5节讨论的,观察到的数据实际上与所有等效的模型(即τ=0)是一致的,但是该模型没有实质意义,所以我们拟合了允许τ为任何正值的模型。结果总结为τ的边际后验分布(如图5.5所示),它描述了数据所支持的τ值的范围。
有时,使用标准模型(二项式、正态式、泊松式、指数式)似乎很自然,但数据过于分散。例如,正态分布不应该被用来拟合一个大样本,其中10%的点离中位数的距离超过1.5倍的四分位数范围。在上一节的假设例子中,我们建议θ′s的先验或群体模型应该有比正态更长的尾巴。对于每一个标准模型,实际上都有一个自然的扩展,在其中加入一个参数以允许过度分散。每个扩展模型都有一个解释,即混合分布。
所有这些分布的一个特点是,它们永远不可能是分散不足的。根据公式(2.7)和(2.8)以及混合解释,这是有道理的:广义分布的平均值与基础族的平均值相等,但方差更大。如果认为数据相对于标准分布来说是分散不足的,就应该使用不同的模型。
$var\left(\Theta\right)=E\left(var\left(\Theta|y\right)\right)+var\left(E\left(\Theta|y\right)\right) (2.8)
t分布的尾部比正态分布长,可用于容纳(1)数据分布中偶尔出现的异常值,或(2)先验分布或分层模型中偶尔出现的极端参数。t系列分布$t_{v}\left(\mu,\sigma^{2}\right)$有三个参数:中心µ、尺度σ和一个决定分布形状的 "自由度 "参数ν。t密度是对称的,ν必须落在(0,∞)范围内。在ν=1时,t相当于柯西分布,它的长尾是无限的平均数和方差,当$v\to\∞$时,t接近正态分布。 如果t分布是一个概率模型的一部分,试图根据合理的大量数据准确地拟合一个长尾分布,那么一般来说,将自由度作为一个未知参数列入是合适的。在选择t作为正态分布的稳健替代的应用中,自由度可以固定在一个较小的数值上,以允许异常值的存在,但不能小于先前的要求。例如,有一个或两个自由度的t在远尾部具有无限的方差通常是不现实的。
回顾第3.2节和第12.1节,$t_{v}\left(\mu,\sigma^{2}\right)$分布可以被解释为具有共同均值和方差的正态分布的混合分布,其分布方式为反比例$chi^{2}$。例如,模型$y\simt_{v}\left(\mu,\sigma^{2}\right)$等价于
$y_{i}|V_{i}\sim N\left(\mu,V_{i}\right)$$V_{i}\sim Inv-\chi^{2}\left(v,\sigma^{2}\right)$ (17.1)
我们已经在第294页介绍了一个表达式(12.1)以说明辅助变量和参数展开的计算方法。在统计学上,具有高方差的观测值可以被认为是分布中的异常值。在对可交换参数$\Theta_{j}$进行建模时,也有类似的解释。
将泊松模型应用于数据的一个常见困难是,泊松模型要求方差等于均值;在实践中,计数的分布往往是过度分散的,方差大于均值。我们已经在广义线性模型的背景下讨论了过度分散问题(节16.1),(节16.4)给出了一个用于过度分散的泊松回归的层次正态模型的例子。 另一种对过度分散的数据进行建模的方法是使用负二项分布,这是一个双参数系列,允许分别拟合平均值和方差,方差大于等于平均值。服从$Neg-bin\left(\alpha,\beta\right)$分布的数据$y_{1},...,y_{n}$可看作是具有均值$\lambda_{1},...,\lambda_{n}$的泊松观测值,它遵循$Gamma\left(\alpha,\beta\right)$分布。负二项分布的方差是$\frac{\beta+1{\beta}\frac{\alpha}{\beta}$,它总大于平均值$\frac{\alpha}{\beta}$,而泊松分布的方差总是等于平均值。在$\beta\to\propto$和$\frac{\alpha}{\beta}$保持不变的情况下,基础伽马分布接近峰值,负二项分布接近泊松。
离散数据的二项分布模型有只有一个自由参数的限制,这意味着方差是由平均值决定的。一个标准的稳健的替代方法是β-二项分布,顾名思义,它是二项分布的β混合。例如,β二项分布被用来模拟教育测试数据,其中 "成功"是一个正确的反应,而个人在获得正确反应的概率上有很大的不同。在这里,数据$y_{i}$————每个人的正确回答数(i=1,...,n)用β-bin(m,α,β)分布来建模,并被认为具有共同的试验次数m和不等的概率$\pi_{1},...,\pi_{n}$的二项分布服从β(α,β)分布。具有平均概率$\frac{\alpha}{\alpha+\beta}$的β二项式的方差比具有相同概率的二项式的方差大$\frac{\alpha+\beta+m}{\alpha+\beta+1}$倍;见附录A表A.1。当m=1时,没有信息可用来区分β二项分布和二项分布的变化,且两个模型的方差相等。
logistic和probit回归可能是非稳健的,因为对于线性预测因子Xβ的大绝对值,逆logit或probit转换给出的概率接近于0或1。这样的模型可以通过允许偶尔对Xβ的值进行错误预测而变得更加稳健。这种形式的稳健性不是指数据y在二元回归中等于0或1,而是指预测因子X。一个更稳健的模型允许离散回归模型拟合大部分数据,而偶尔会出现孤立的错误。
一个稳健的robit回归模型,可以使用离散数据回归模型的潜在变量形式来实现(见第408页),用模型$u_{i}\sim t_{v}\left(\left(X\beta\right)_ {i},1\right)$取代潜在连续数据u的逻辑或正态分布。在现实环境中,从数据中估计ν是不切实际的--因为潜伏数据$u_{i}$从未被直接观察到,所以基本上不可能形成对其连续基础分布形状的推断--因此将其设置为一个较低值以确保稳健性。设置ν=4会产生一个接近Logistic的分布随着$v\to\∞$,模型接近probit分布。二元t回归的计算可以使用EM算法和Gibbs采样器,用正态混合公式(17.1)对潜在数据u的t分布进行计算,在这种方法中,$u_{i}$和每个$u_{i}$的方差被视为缺失数据。
t分布族的特例包括正态分布,那么我们为什么要使用正态分布,或者二项分布、泊松分布或其他标准模型呢?首先,每个标准模型都有一个逻辑地位,使得它在许多应用问题上是合理的。二项分布和多项分布适用于具有固定总数的独立同分布结果的离散计数。泊松分布和指数分布拟合了泊松过程的事件数和等待时间,是一个以时间为指标的独立离散事件的自然模型。最后,中心极限定理告诉我们,对于作为大量独立分量之和形成的数据,正态分布是一个合适的模型。在第5.5节的教育测试例子中,每一个观察到的效应$y_{j}$都是调整后的考试成绩的平均值,有$n_{j}\approx60$。也就是说,估计的治疗效应是基于j学校的大约60个学生。因此,我们可以用正态性精确地拟合近似$y_{j}$的抽样分布: $y_{j}|\theta {j},\sigma{j}^{2}\sim N\left(\theta_{j},\sigma_{j}^{2}\right)$。
即使它们不是由问题的结构自然隐含的,标准模型在计算上也很方便,因为共轭先验分布常常允许直接计算后验均值和方差,并易于模拟。这就是在教育测试的例子中很容易将正态人口模型拟合到$\theta_{j}$上以及以及通常将正态模型拟合到全阳性数据的对数或被限制在0和1之间的数据的对数上的原因。如第六章所讨论的,当以这种或多或少的任意方式分配模型时,最好使用后验预测分布来检查数据的拟合情况。但如果我们担心假设的模型不稳健,那么就有必要进行灵敏度分析,观察如果我们换成更大的分布族,比如用t分布代替正态分布,后验推断会产生怎样大的变化。
我们可以使用第三部分所述的方法从后验分布(或在敏感性分析的情况下的其他分布)中抽取样本。在这一节中,我们简要地描述了Gibbs抽样在稳健模型的混合分布表述下的使用。该方法在第17.4节中对一个层次化的正态t模型进行了说明。然而,当扩展一个模型时,我们有可能采用耗时较少的近似方法作为替代:使用原始后验分布的抽样作为新模型模拟的起点。本节我们还描述了两种对稳健模型和敏感性分析有用的技术:在灵敏度分析中计算边缘后验密度的重要性加权,以及用于近似稳健分析的重要性重采样(第10.4节)。
我们用$p_{0}\left(\theta|y\right)$表示原始模型的后验分布,假设它已经被拟合到数据上,而φ表示用于稳健性或敏感性分析的扩展模型的超参数。我们的目标是从
在后一种情况下,我们还希望计算灵敏度分析参数的边际后验分布$p\left(\phi|y\right)$。
稳健分布族可以通过参数分布$p\left(\theta|\phi\right)$或数据分布$p\left(y|\theta,\phi\right)$进入模型(17.2)。例如,(节17.2)关注的是稳健的数据分布,而我们在第17.4节对SAT辅导实验的重新分析使用了模型参数的稳健分布。然后,我们必须建立一个联合先验分布$p\left(\theta,\phi\right)$,这可能需要y引起注意,因为它捕捉了$\theta$和$\phi$之间的先验依赖性。
我们可以从后验分布$p\left(\theta|\phi,y\right)$中抽取马尔可夫链模拟。这可以用混合分布来完成,通过从$\theta$和额外的未观察到的尺度参数(t模型中的$V_{i}$,负二项中的$\lambda_{i}$,以及β二项中的$\pi_{i}$)的联合后验分布中取样。
举个简单的例子,对数据$y_{1},...,y_{n}$拟合的$t_{v}\left(\mu,\sigma^{2}\right)$分布,$\mu$,$\sigma$未知。对于ν,我们已经在第12.1节中讨论了如何根据涉及$\mu$,$\sigma^{2}$,$V_{1},...,V_{n}$的参数化(17.1)对Gibbs采样器进行编程。如果ν本身未知,则Gibbs采样器必须扩展,以包括从ν的条件后验分布中采样的步骤。这个步骤没有简单的方法,但可以用Metropolis步骤来代替。另一个复杂的问题是,这类模型通常具有多种模式的后验密度,不同的模式对应于t分布尾部的不同观测值,这意味着需要额外的工作来搜索初始模式,并在模拟状态下在各种模式之间跳跃,例如使用模拟调整(见12.3节)。
为了对预测值$\tilde{y}$进行灵敏度分析和稳健推断,按照通常的程序,首先从后验分布$p\left(\theta|\phi,y\right)$中抽取$\theta$,然后从预测分布$p\left(\tilde{y}|\phi,\theta\right)$中抽取$\tilde{y}$为了模拟来自混合模型的数据,首先为每个未来的观察绘制混合指标,然后根据混合参数绘制。例如,为了从$t_{v}\left(\mu,\sigma^{2}\right)$分布中抽取$\tilde{y}$,首先抽取$V\sim Inv-\chi^{2}\left(v,\sigma^{2}\right)$,然后抽取$\tilde{y}\sim N\left(\mu,V\right)$。
在检查模型的稳健性或对假设的灵敏度时,我们可能希望避免对稳健模型应用马尔可夫链模拟所需的额外编程工作。如果我们有$p_{0}\left(\theta|y\right)$的模拟抽样,那么就有可能使用重要性加权和重要性再抽样获得稳健模型下的近似推断。在本节的其余部分,我们假设模拟抽样$\theta ^{s}$ (s=1,...,S)已经从$p_{0}\left(\theta|y\right)$中得到了。我们可以使用第326页的恒等式(13.11),运用重要性加权来评估边际后验分布$p\left(\theta|y\right)$,在我们当前的记法中,它成为
在上述第一行中,比例常数是$1/p\left(y\right)$,而在第二行中是$p_{0}\left(y\right)/p\left(y\right)$。对于任何$\phi$,$p\left(\phi|y\right)$的值在一个常数的范围内可以通过模拟$\theta ^{s}$的平均重要性来估计。
可以使用一组固定的S模拟在每个$\phi$值的范围中进行评估,然后作为$\phi$的函数绘制成图。
为了执行重要性重采样,最好从原始后验分布$p_{0}\left(\phi|y\right)$的大量抽样开始,例如S=5000。现在,对于以$\phi$为索引的扩展族中的每个分布,使用重要性重采样提取一个较小的子样本,例如k=500,而不进行替换,其中每个K个样本以与其重要性比率成比例的概率被提取,即
必须为φ的每个值绘制一组新的子样本,但可以使用相同的原始绘制集。有关详细信息,请参阅第10.4节。只要最大的重要性比充足且不变化不大,这个过程就是有效的;如果它们确实变化很大,这就表明了潜在的灵敏度,因为$p(\theta\mid\phi,y)/p_{0}(\theta \mid y)$对抽取的θ值是灵敏的。如果重要性权重变化太大,重要性重采样不能被认为是准确的,那么我们必须依赖于马尔可夫链模拟,并且需要在稳健性备选方案下进行准确的推断。
根据第5.5节中表5.2的数据的SAT教练效应的分层模型。鉴于八个原始实验中的大样本量,假设数据模型为$y_{j}\sim \mathrm{N}\left(\theta_{j},\sigma_{j}^{2}\right)$,方差为$\sigma_{j}^{2}$,应该没有什么问题。人口模型$\theta_{j} \sim \mathrm{N}\left(\mu,\tau^{2}\right)$更难证明,尽管第6.5节的模型检查表明,它足以获得学校效应的后验区间。然而,一般来说,后验推断可能对假设的模型非常敏感,即使该模型对观察到的数据提供了良好的拟合。为了说明稳健推断和灵敏度分析的方法,我们探讨了另一类模型,即对学校效应的群体进行t分布:
我们用$p(\theta, \mu, \tau \mid \nu, y) \propto p(\theta, \mu, \tau \mid \nu) p(y \mid \theta, \mu, \tau, \nu)$表示$t_{v}$模型下的后验分布,$p_{0}(\theta, \mu, \tau \mid y) \equiv p(\theta, \mu, \tau \mid \nu=\infty, y)$表示5.5节中评估的正常模型下的后验分布。
正如本章开头所讨论的,人们可能会担心,正态人口模型会使最极端的学校效应估计值过于偏向总体平均水平。例如,也许学校A的教练项目与其他项目有很大的不同,它的估计值不应该缩减到平均值这么低。一个相关的问题是,学校A的最大观测效应可能会对总体方差$\tau^{2}$的估计产生不适当的影响,从而也会对其他效应的贝叶斯估计产生影响。从建模的角度来看,有很多不同的SAT辅导项目,它们的效果可能更符合长尾分布。为了评估这些问题的重要性,我们进行了稳健分析,用ν=4的t模型(17.4)代替正态分布,模型的其余部分保持不变;也就是说,可能性为仍然是$p(y \mid \theta, \nu)=\prod_{j} \mathrm{~N}\left(y_{j} \mid \theta_{j}, \sigma_{j}^{2}\right)$,并且超优先分布仍然是$p(\mu, \tau \mid \nu) \propto 1$。
在ν=4的情况下,我们使用第12.1节中描述的方法进行Gibbs抽样。
表17.1 用$t_{4}$人口分布代替正态分布,对8所学校的治疗效果进行了2500次模拟汇总。结果与正态模型下得到的结果相似,并显示在表5.3中。
表17.1提供了基于2500次后验分布(五条链的最后一半,每条链的长度为1000)的八所学校的推断结果。就实际情况而言,其结果 与第123页表5.3中显示的正态模型下的推论基本相同,只是对学校A等比较极端的学校的收缩略小。
尽管我们已经做了马尔可夫链模拟,但还是要简单讨论一下如何应用重要性重采样来近似ν=4的后验分布。首先,我们从正态模型下的后验分布$尽管我们已经做了马尔科夫链模拟,但我们还是 要简单讨论一下如何应用重要性重采样来近似ν=4的后验分布。首先,我们从正态模型下的后验分布$p_{0}(\theta, \mu, \tau \mid y)$中抽取5000个样本$(\theta, \mu, \tau)$,如第5.4节所述。接下来,我们计算每次抽样的重要性比率:
在重要性比中消除了似然和超验前密度的因素,只留下了人口密度的比。我们从5000个样本中抽出500个$(\theta, \mu, \tau)$的样本,不作替换使用重要性重抽法。在这种情况下,近似值可能足以评估稳健性,但重要性比率的对数分布的长尾(未显示)确实表明使用重要性再抽样获得准确推断存在严重问题。
与稳健性稍有不同的关注点是后验推断对正态总体分布的先验假设的灵敏度。为了研究这种灵敏度,我们现在拟合一系列的t分布,有1,2,3,5,10和30个自由度。我们已经拟合了无限自由度(正常模型)和4自由度(上面的稳健模型)。
对于每个ν值,我们进行马尔可夫链模拟,以获得$p(\theta, \mu, \tau \mid \nu, y)$的抽样。我们没有为ν的每个值显示后验汇总表(如表17.1),而是通过八个学校效应$\theta_{j}$中的每一个后验平均数和标准差来汇总结果。图17.1将结果显示为$\frac{1}{v}$的函数。根据$\frac{1}{v}$而不是v进行参数化的优点是,在$\frac{1}{v}=0$处包含正态分布,并在有限区间[0,1]内包含从正态分布到柯西分布的整个范围。这些数字有一些变化,但推论对超参数ν没有明显的系统敏感性。
图17.1 在教育测试例子的敏感性分析中,治疗效果的后验均值和标准差是ν的函数,尺度为1/ν。1/ν=0的数值来自第5.5节中正态分布下的模拟。图中的大部分散点是由于模拟的变异性造成的。
最后,我们将灵敏度分析参数ν视为一个未知量,并在后验分布中对其进行平均。一般来说,这种计算是一个关键步骤,因为我们通常只关心对数据支持的模型的灵敏度。在这个特殊的例子中,推论对ν不敏感,因此计算边际后验分布是不必要的;我们在这里把它作为一般方法的说明。
在计算ν的后验分布之前,我们必须把它分配给一个先验分布。我们尝试在范围[0,1](即从正态分布到柯西分布)的$\frac{1}{v}=0$上采用均匀密度。这种先验分布倾向于长尾模型,先验概率的一半落在$t_{1}$(柯西)和$t_{2}$分布之间。
此外,条件先验分布$p(\mu, \tau \mid \nu) \propto 1$是不恰当的,所以我必须说明它们对ν的依赖性;我们使用符号$p(\mu, \tau \mid \nu) \propto g(\nu)$。在t族中,参数μ和τ描述了函数在$\theta_{j}$分布中位数处的中值和二阶导数,而不是均值和方差。参数$\mu$似乎有合理的不变含义(实际上等于均值,除了在均值不存在的柯西极限情况下),但在建立先验分布时,四分位数区间也许是比曲率更合理的参数。我们不能用方差来设置$t_{v}$分布的参数,因为$v\leq2$的方差是无限的。四分位数范围作为ν的函数变化较小,因此为简单起见,我们使用方便的参数$(\mu, \tau)$,并设置$g(\nu) \propto 1$。将此与在ν上的先验分布相结合,将得到$\left(\mu, \tau, \frac{1}{\nu}\right)$上一个不恰当的联合均匀先验密度。如果我们在这个模型下的后验推断结果强烈依赖于ν,我们应该考虑完善此先验分布。
为了将ν视为未知参数,我们修改了稳健分析中使用的Gibbs抽样模拟,包括从$\frac{1}{v}$的条件分布中抽样的Metropolis步骤。图17.2显示了$\frac{1}{v}$的模拟直方图。延伸模型的另一种方法是使用重要性抽样和(17.3)来近似计算边际后验密度。
图17.2 来自Gibbs-Metropolis计算的1/ν的后验模拟,用于教育测试例子的稳健模型,其中ν被视为未知。
灵敏度分析表明,ν对后验推断的影响很小;因此第5.5节的结果并不强烈依赖于参数$\theta_{j}$的总体分布的正态假设。如果图17.1显示了对ν的强烈依赖性——正如图5.5-5.7显示了对$\tau$的依赖——那么将教育测试示例的稳健模型的Gibbs-Metropolis计算的1/ν的后验模拟纳入Gibbs-Metropolis计算,并将ν视为未知可能是有意义的。作为超参数,更认真地思考具有非信息性先验分布的参数的联合先验分布——$(\mu, \tau, v)$
对建模假设的稳健性和灵敏度取决于正在研究的估计值。在SAT辅导的例子中,八所学校效应的后验中位数、50%和95%的区间对正态人口分布的假设不敏感(至少与t族相比是这样)。相反,99.9%的区间可能强烈依赖于分布的尾部,并且对t分布的自由度敏感——幸运的是,这些极端的尾部在这个例子中不太可能有实质性的意义。
与其他基于正态分布的模型一样,第14章的正态线性回归模型下的推论对异常值或离散值很敏感。稳健回归分析是通过考虑回归误差的正态分布的稳健替代分布而获得的。稳健的误差分布,如自由度较小的t分布,将远离回归线的观测值视为高方差观测值,其结果类似于通过降低异常值权重得到的结果。(回顾一下,加权线性回归中的 "权重 "是逆方差)。
为了说明稳健的回归计算,我们考虑用固定自由度的$t_{v}$回归模型作为正态线性回归模型的替代模型。在解释变量$X_{i}$的基础上,个体反应变量$y_{i}$的条件分布是$p\left(y_{i} \mid X_{i} \beta, \sigma^{2}\right)=t_{\nu}\left(y_{i} \mid X_{i} \beta, \sigma^{2}\right)$。$t_{v}$分布可以表示为方程(17.1)中的混合分布,$X_{i}\Beta$为平均值。作为稳健分析的第一步,在给定由n个观测值组成的向量y的情况下,我们找出后验分布$p\left(\beta, \sigma^{2} \mid \nu, y\right)$的模式。这里我们假设使用一个非信息性的先验分布$p(\mu, \log \sigma \mid \nu) \propto 1$;关于回归参数的更多实质性信息可以完全按照第14.8节和第15章处理。t模型下$p(\beta, \log \sigma \mid \nu, y)$的后验模式可以直接使用牛顿方法(第13.1节)或任何其他模式寻找技术获得。另外,我们可以利用t模型的混合形式,使用EM算法,将方差$V_{i}$作为"缺失数据"(即需要平均的参数);在第13.4节的记录中,$\gamma=\left(V_{1}, \ldots, V_{n}\right)$。在给定当前参数估计$\left(\beta^{\text {old }}, \sigma^{\text {old }}\right)$和平均值处于$\left(V_{1}, \ldots, V_{n}\right)$的情况下,EM算法的E步骤计算正态模型$\left(\sum_{i=1}^{n} y_{i}^{2} / V_{i}, \sum_{i=1}^{n} y_{i} / V_{i}, \sum_{i=1}^{n} 1 / V_{i}\right)$的充分统计的期望值。值得注意的是:
和
EM算法的M步是一个加权线性回归,对角线上的加权矩阵W包含$1 / V_{i}$在对角线上的条件期望。更新后的参数估计为
其中X是解释变量的$n\times p$矩阵。EM算法的迭代次数相当于在迭代加权最小二乘法算法的迭代次数。给定回归参数的初始估计,计算每个案例的权重,对残差较大的案例给予较少的权重。然后通过加权线性回归获得改进的回归参数估计值。
当自由度参数ν被视为未知时,可以采用ECME算法,并在迭代中增加额外的步骤以更新自由度。
迭代加权线性回归,或等同于EM算法,可以用来获得一些稳健替代模型的后验模式。改变用于观测方差的概率模型$V_{i}$,可以创建其他稳健模型。例如,一个两点分布可以用来拟合一个带有污染误差的回归模型。这种形式的稳健模型的计算和上面描述的一样,只是E步骤被修改以反映适当的后验条件均值。
稳健回归模型的后验抽样可以使用Gibbs抽样和Metropolis算法获得,就像第14-16章中讨论的线性和广义线性模型一样。通过$t_{v}$分布的混合参数化,我们可以从$p\left(\beta, \sigma^{2}, V_{1}, \ldots, V_{n} \mid \nu, y\right)$中交替取样获得后验分布的抽样$p\left(\beta, \sigma^{2} \mid V_{1}, \ldots, V_{n}, \nu, y\right)$,使用通常的加权线性回归的后验分布,以及从$p\left(\beta, \sigma^{2} \mid V_{1}, \ldots, V_{n}, \nu, y\right)$中取样,如公式(17.6)中所示的一组独立缩放的逆$\chi^{2}$分布。 如第12.1节所述,使用参数扩展可能更加有效。
如果自由度参数ν作为未知参数包含在模型中,那么每次迭代都需要额外的Metropolis步骤。在实践中,这些计算可能很难实现,因为在自由度ν较低的情况下,后验分布可能有很多模式,Gibbs采样器和Metropolis算法可能会卡住。对于这种形式的复杂模型,用过度分散的起点进行多次模拟是很重要的。
Mosteller和Wallace(1964)使用负二项分布,而不是泊松分布,用于计数数据,并广泛研究了他们的结论对模型的灵敏度假设。
Box和Tiao(1968)在正态模型中的异常值背景下提供了贝叶斯稳健性的另一个早期讨论。Smith(1983)扩展了Box的方法,并使用与我们相同的参数化(反自由度)讨论了这个族。安德森(Anderson,1988)从非贝叶斯的角度回顾了二项式数据中过度离散的模型,他引用了许多进一步的参考文献。Gaver和O'Muircheartaigh(1987)讨论了使用分层泊松模型进行稳健贝叶斯推理。O'Hagan(1979)和Gelman(1992a)讨论了层次模型的人口分布尾部与相关贝叶斯后验分布的收缩之间的联系。
在一系列的论文中,Berger和同事们探索了贝叶斯稳健性的理论方面,例如, 研究了对异常观测的影响提供最大稳健性的先验分布系列;例如,参考Berger(1984,1990)以及Berger和Berliner(1986)。相关工作见Wasserman(1992)。Dempster(1975) 从接近我们的实用主义观点出发, 提供了一个早期的概述。Rubin(1983a)说明了在评估模型拟合度时数据的局限性,以及由此产生的一些结论对不可检验的假设的不可避免的灵敏度。
随着最近计算技术的进步,用t分布建立模型在统计学中越来越普遍。Dempster, Laird和Rubin(1977)展示了如何将EM算法应用于t模型,Liu和Rubin(1995)以及Meng和 van Dyk(1997)讨论了使用EM扩展的快速计算方法。Lange, Little和Taylor(1989)讨论了t分布在各种统计背景下的使用。Raghunathan和Rubin(1990)介绍了一个使用重要性重采样的例子。Tipping和Lawrence(2005)应用了因子化变异近似法,Vanhatalo, Jylanki, Vehtari(2009)应用了Laplace方法,Jylanki, Vanhatalo, and Vehtari(2011)应用了期望传播t模型。 Liu(2004)提出了 "robit "模型,作为逻辑和probit回归的替代品。
Rubin(1983b)和Lange和Sinsheimer(1993)回顾了稳健回归、t和相关分布以及迭代回归计算之间的联系。
Taplin和Raftery(1994)介绍了一个应用有限混合模型对农业实验进行稳健贝叶斯分析的例子。



