安承悦读

总结区间估计的方法(通用5篇)

admin
导读 4.一个总体参数的区间估计:总体均值的区间估计,总体方差的区间估计,总体比例的区间估计;如果是点估计,我们会寻找一个统计量 \hat{g}(X) 来估计 g(\theta) 。可以分别对 \mu_1 和 \mu_2 构建置信区间,置信度均为 1-\alpha :

总结区间估计的方法 第1篇

假设 \mathcal{F}=\{f(x, \theta): \theta \in \Theta\} 是一个分布族,其参数 \boldsymbol{\theta}=\left(\theta_1, \cdots, \theta_k\right) \in \Theta \subseteq R^k, k \geq 2 为二维及以上。假设 X=(X_1,\dots,X_n) 是一个随机样本, S(X) 是一个统计量,满足:

1)对于任意的随机样本 X ,S(X) 是参数空间 \Theta 的一个子集;

2)对于任意的给定实数 0<\alpha<1, \forall \theta \in \Theta , P_{\boldsymbol{\theta}}(\boldsymbol{\theta} \in S(\boldsymbol{X})) \geq 1-\alpha ;

那么,我们称 S(X) 是关于参数 \theta 的置信区域,置信度为 1-\alpha ,置信系数为 \inf _{\theta \in \Theta} P_\theta(\theta \in S(X)) 。

EX1:假设 X=(X_1,\dots,X_n) 是一个随机样本,服从正态分布 N(\mu,\sigma^2) ,其中 \mu 和 \sigma 均为未知参数。请构造关于 \mu 和 \sigma 的、置信度为 1-\alpha 的置信区域。

对于该随机样本,样本均值与样本方差的分布分别为

\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \sim N(0,1), \quad \frac{(n-1) S^2}{\sigma^2} \sim \chi_{n-1}^2 \\

那么,问题就转化为:我们要寻找实数 c>0 和实数 b>a>0 分别满足

\begin{aligned} P_\theta\left[-c \leq \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \leq c\right] & =\sqrt{1-\alpha}\\ P_\theta\left[a \leq \frac{(n-1) S^2}{\sigma^2} \leq b\right] & =\sqrt{1-\alpha} \end{aligned} \\

进一步改写为

\begin{aligned} & P_\theta\left[-c \leq \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \leq c\right] =P_\theta\left[(\mu-\bar{X})^2 \leq \frac{c^2 \sigma^2}{n}\right](=\sqrt{1-\alpha})\\ & P_\theta\left[a \leq \frac{(n-1) S^2}{\sigma^2} \leq b\right] =P_\theta\left[\frac{(n-1) S^2}{b} \leq \sigma^2 \leq \frac{(n-1) S^2}{a}\right](=\sqrt{1-\alpha}) \end{aligned} \\

又因为均值和方差相互独立 \begin{aligned} & P_\theta {\left[-c \leq \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \leq c, a \leq \frac{(n-1) S^2}{\sigma^2} \leq b\right] } \\ =&P_\theta\left[-c \leq \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \leq c\right] P_\theta\left[a \leq \frac{(n-1) S^2}{\sigma^2} \leq b\right] \\ =&P_\theta\left[(\mu-\bar{X})^2 \leq \frac{c^2}{n} \sigma^2\right] P_\theta\left[\frac{(n-1) S^2}{b} \leq \sigma^2 \leq \frac{(n-1) S^2}{a}\right] \\ = & 1-\alpha \end{aligned} \\

所以,取 a=\chi^2_{n-1;1-\gamma} , b=\chi^2_{n-1;\gamma} , c=z_\gamma ,其中 \gamma=(1-\sqrt{1-\alpha})/2 。

综上所述,置信区域为

EX2(Šidák Correction):假设 X=(X_1,\dots,X_m) 是一个随机样本,服从正态分布 N(\mu_1,\sigma^2_1) , Y=(Y_1,\dots,Y_n) 是另一个随机样本,服从正态分布 N(\mu_2,\sigma^2_2) ,两个随机样本间相互独立。例如,正教授与副教授的工资分布,是相互独立的两个随机样本。

可以分别对 \mu_1 和 \mu_2 构建置信区间,置信度均为 1-\alpha :

\left[\bar{X}-t_{m-1, \gamma} \frac{S_X}{\sqrt{m}}, \bar{X}+t_{m-1, \gamma} \frac{S_X}{\sqrt{m}}\right] \times\left[\bar{Y}-t_{n-1, \gamma} \frac{S_Y}{\sqrt{n}}, \bar{Y}+t_{n-1, \gamma} \frac{S_Y}{\sqrt{n}}\right] \\

其中 \gamma=(1-\sqrt{1-\alpha})/2 。

EX3(Bonferroni Correction):假设 (X,Y)=\{(X_1,Y_1),\dots,(X_n,Y_n)\} 是一个随机样本,服从二元正态分布 N(\mu_1,\mu_2,\sigma^2_1,\sigma^2_2) 。显然 X 和 Y 之间并不相互独立。例如,香港儿童的身高与体重。

已知, X 和 Y 的样本均值服从以下分布

\frac{\sqrt{n}\left(\bar{X}-\mu_1\right)}{S_X} \sim t_{n-1}, \quad \frac{\sqrt{n}\left(\bar{Y}-\mu_2\right)}{S_Y} \sim t_{n-1} \\以概率的语言改写为

\begin{aligned} & P\left(-t_{n-1, \alpha / 4} \leq \frac{\sqrt{n}\left(\bar{X}-\mu_1\right)}{S_X} \leq t_{n-1, \alpha / 4}\right)=1-\alpha / 2 \\ & P\left(-t_{n-1, \alpha / 4} \leq \frac{\sqrt{n}\left(\bar{Y}-\mu_2\right)}{S_Y} \leq t_{n-1, \alpha / 4}\right)=1-\alpha / 2 \end{aligned} \\

进一步,得到

\begin{aligned} & 1-P\left(\left|\frac{\sqrt{n}\left(\bar{X}-\mu_1\right)}{S_X}\right| \leq t_{n-1, \alpha / 4} \quad \text { and } \quad\left|\frac{\sqrt{n}\left(\bar{Y}-\mu_2\right)}{S_Y}\right| \leq t_{n-1, \alpha / 4}\right) \\ = & P\left(\left|\frac{\sqrt{n}\left(\bar{X}-\mu_1\right)}{S_X}\right|>t_{n-1, \alpha / 4} \quad \text { or } \quad\left|\frac{\sqrt{n}\left(\bar{Y}-\mu_2\right)}{S_Y}\right|>t_{n-1, \alpha / 4}\right) \\ \leq & P\left(\left|\frac{\sqrt{n}\left(\bar{X}-\mu_1\right)}{S_X}\right|>t_{n-1, \alpha / 4}\right)+P\left(\left|\frac{\sqrt{n}\left(\bar{Y}-\mu_2\right)}{S_Y}\right|>t_{n-1, \alpha / 4}\right) \\ = & \alpha / 2+\alpha / 2=\alpha . \end{aligned} \\

所以置信区域为

\left[\bar{X}-t_{n-1, \alpha / 4} \frac{S_X}{\sqrt{n}}, \bar{X}+t_{n-1, \alpha / 4} \frac{S_X}{\sqrt{n}}\right] \times\left[\bar{Y}-t_{n-1, \alpha / 4} \frac{S_Y}{\sqrt{n}}, \bar{Y}+t_{n-1, \alpha / 4} \frac{S_Y}{\sqrt{n}}\right] \\

总结区间估计的方法 第2篇

4.一个总体参数的区间估计:总体均值的区间估计,总体方差的区间估计,总体比例的区间估计;

总体均值的区间估计: 均值抽样分布即样本均值组成的抽样分布,总体参数的估计方法跟样本均值的抽样分布有关; Z分布其实就是标准正态分布,如果样本均值组成的抽样分布服从正态分布,那么将该正态分布标准化后即可得到Z分布, Z分布的适用条件有两种:一是总体服从正态分布且总体标准差已知;二是总体分布未知,但是样本容量大于或等于30; T分布:对于服从正态分布的总体且总体标准差未知的情况下 ,T分布是非常适用的均值抽样分布类型; 切比雪夫不等式:对于非正态分布总体或总体分布未知并且小样本的情况下,只能用切比雪夫不等式来近似估计总体均值的置信区间。 截图来自《人人都会数据分析:从生活实例学统计》

总体方差的区间估计: 总体方差的区间估计要用到卡方分布,如果数据总体服从正态分布,从中抽取样本容量为n的样本,样本方差为s^2,那么包含样本方差的卡方统计量服从自由度为n-1的卡方分布。卡方统计量是由总体方差和样本方差的比值组成的统计量,用于总体方差的区间估计。 卡方统计量的计算公式: χ α 2 ( n − 1 ) = ( n − 1 ) s 2 σ z 2 \chi^2_\alpha(n-1)=\frac{(n-1)s ^2}{\sigma ^2_z} χα2​(n−1)=σz2​(n−1)s2​ 总体方差的双侧置信区间估计公式为: ( n − 1 ) s 2 χ α 2 2 ( n − 1 ) ≤ σ z 2 ≤ ( n − 1 ) s 2 χ 1 2 − α 2 ( n − 1 ) \frac{(n-1)s^2}{\chi ^2_\frac{\alpha}{2}(n-1)} \leq \sigma ^2_z \leq \frac{(n-1)s ^2}{\chi ^2_1-\frac{\alpha}{2} (n-1)} χ2α​2​(n−1)(n−1)s2​≤σz2​≤χ12​−2α​(n−1)(n−1)s2​ 其中带有a/2的为下标; 如果是单侧置信区间的话,只需要取上面式子的前半部分或者后半部分,并将a/2改成a即可得到单侧置信区间。

总体比例的区间估计: 或者叫总体比率的区间估计,跟二项分布有关,二项分布的理论是:事件发生概率是p,进行n次实验,其中x次实验该事件发生,则发生次数的概率分布服从二项分布;均值、方差为np,npq。 若将发生的次数转换成比率(x/n),则比率的概率分布也服从二项分布。 二项分布的特性:当抽取的样本容量n很大,是大 样本,使得np和nq(q为事件不发生的概率,等于1-p)的值都大于 5, 此时二项分布将近似于正态分布。 由于事件发生比率x/n服从二项分布,所以如果比率的二项分布近似于正态分布,就可以得到不利的区间估计。

在事件发生概率p已知的情况下,总体比率

总结区间估计的方法 第3篇

其实在 中求解 \mu_1-\mu_2 的置信区间时,我们就已经用到了渐进置信区间。当具体的分布太过复杂活着不可知的情况下,我们可以运用中心极限定理,去求解在样本量足够大的情况下对参数的渐进估计。

\lim _{n \rightarrow \infty} P_\theta\left(\hat{\theta}_1\left(\boldsymbol{X}_n\right) \leq \theta \leq \hat{\theta}_2\left(\boldsymbol{X}_n\right)\right) \geq 1-\alpha, \quad \theta \in \Theta\\

EX1:一家工厂生产的产品的废品率是长期稳定的。如果废品率低于,商店会从该工厂购买产品。随机抽取大小为100的样本,发现其中3个是废品。那么,商店应该购买这些产品吗?

假设废品率服从伯努利分布 Ber(\theta) ,其中 \theta 是废品率。已知 E_\theta X_1=\theta 和 \sigma_\theta^2\left(X_1\right)=\theta(1-\theta) 。所以,根据中心极限定理,得到

\frac{\sqrt{n}\left(\bar{X}_n-\theta\right)}{\sqrt{\theta(1-\theta)}} \simeq N(0,1) \\

设 T=\sqrt{n}\left(\bar{X}_n-\theta\right) / \sqrt{\theta(1-\theta)} 为枢轴量,得到概率分布 P\left(|T| \leq z_{\alpha / 2}\right)=P\left(\left|\frac{\sqrt{n}\left(\bar{X}_n-\theta\right)}{\sqrt{\theta(1-\theta)}}\right| \leq z_{\alpha / 2}\right) \approx 1-\alpha \\

改写,得到关于 \theta 的不等式

n\left(\bar{X}_n-\theta\right)^2 \leq z_{\alpha / 2}^2 \theta(1-\theta) \\ \theta^2\left(n+z_{\alpha / 2}^2\right)-\theta\left(2 n \bar{X}_n+z_{\alpha / 2}^2\right)+n \bar{X}_n^2 \leq 0 \\

求解得到 \theta_1, \theta_2=\frac{n}{n+z_{\alpha / 2}^2}\left[\bar{X}_n+\frac{z_{\alpha / 2}^2}{2 n} \pm z_{\alpha / 2} \sqrt{\frac{\bar{X}_n\left(1-\bar{X}_n\right)}{n}+\frac{z_{\alpha / 2}^2}{4 n^2}}\right] \\

这就是置信区间的两个端点。

还有另一种简化的方法,选取枢轴量为 T=\sqrt{n}\left(\bar{X}_n-\theta\right) / \sqrt{\bar{X}(1-\bar{X})} ,从而概率分布为

P_\theta\left[-z_{\alpha / 2} \leq \frac{\sqrt{n}\left(\bar{X}_n-\theta\right)}{\sqrt{\bar{X}_n\left(1-\bar{X}_n\right)}} \leq z_{\alpha / 2}\right] \simeq 1-\alpha \\

改写为 P_\theta\left[\bar{X}_n-z_{\alpha / 2} \sqrt{\frac{\bar{X}_n\left(1-\bar{X}_n\right)}{n}} \leq \theta \leq \bar{X}_n+z_{\alpha / 2} \sqrt{\frac{\bar{X}_n\left(1-\bar{X}_n\right)}{n}}\right] \simeq 1-\alpha\\

从而得到置信区间为 \left[\bar{X}_n-z_{\alpha / 2} \sqrt{\frac{\bar{X}_n\left(1-\bar{X}_n\right)}{n}}, \bar{X}_n+z_{\alpha / 2} \sqrt{\frac{\bar{X}_n\left(1-\bar{X}_n\right)}{n}}\right]=\bar{X}_n \pm z_{\alpha / 2} \sqrt{\frac{\bar{X}_n\left(1-\bar{X}_n\right)}{n}}\\

带入题目中的数据,得到置信区间为 [ \%, \%] ,倾向于不采购。

EX2:假设 X=(X_1,\dots,X_n) 是一个随机样本,服从柏松分布 P(\theta) ,请找到关于 \theta 的置信区间。

对于柏松分布,已知 E_\theta X_1=\sigma_\theta^2\left(X_1\right)=\theta 。所以,根据中心极限定理有

\frac{\sqrt{n}\left(\bar{X}_n-\theta\right)}{\sqrt{\theta}} \simeq N(0,1) \\

或者简化为 \frac{\sqrt{n}\left(\bar{X}_n-\theta\right)}{\sqrt{\bar{X}_n}} \simeq N(0,1) \\

写下概率分布

P_\theta\left[-z_{\alpha / 2} \leq \frac{\sqrt{n}\left(\bar{X}_n-\theta\right)}{\sqrt{\bar{X}_n}} \leq z_{\alpha / 2}\right] \simeq 1-\alpha \\

从而得到置信区间为

\left[\bar{X}_n-z_{\alpha / 2} \sqrt{\frac{\bar{X}_n}{n}}, \bar{X}_n+z_{\alpha / 2} \sqrt{\frac{\bar{X}_n}{n}}\right]=\bar{X}_n \pm z_{\alpha / 2} \sqrt{\frac{\bar{X}_n}{n}} \\

总结区间估计的方法 第4篇

EX:假设 X=(X_1,\dots,X_n) 是一个随机样本,服从正态分布 N(\mu,\sigma^2) ,其中 \sigma 已知。请构造关于 \mu 的、置信度为 1-\alpha 的置信区间。

已知,样本均值的分布为

\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \sim N(0,1)\\

那么,有概率分布

P_\mu\left(\left|\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma}\right| \leq z_{\alpha / 2}\right)=1-\alpha \\

绝对值打开,改写为 P_\mu\left(\bar{X}-\frac{\sigma}{\sqrt{n}} z_{\alpha / 2} \leq \mu \leq \bar{X}+\frac{\sigma}{\sqrt{n}} z_{\alpha / 2}\right)=1-\alpha \\

所以,置信区间为 [\bar{X}-\frac{\sigma}{\sqrt{n}} z_{\alpha / 2},\bar{X}+\frac{\sigma}{\sqrt{n}} z_{\alpha / 2}]\\

在这道例题中,置信区间的精准度为 l_n=2 \sigma z_{\alpha / 2} / \sqrt{n} 。可以发现,当给定 \sigma 和 \alpha 时,想要提高精准度,就要增大样本大小 n 。

流程:简而言之,就是找到枢轴量,写出概率分布并改写,从而得到置信区间。

Step 1、找到一个关于 \theta 的统计量 S(X) ,其分布必须已知,最好是充分统计量;

Step 2、找到一个合适的区间 [a,b] ,满足 S(X) 落在这个区间内的概率 P_\theta(a\leq S(X)\leq b)=1-\alpha ;

Step 3、改写 Step 2 中的概率表达式,得到关于 \theta 的分布概率 P_\theta(\hat{\theta}_1(S)\leq \theta\leq \hat{\theta}_2(S))=1-\alpha ;

Step 4、那么 [\hat{\theta}_1(S),\hat{\theta}_2(S)] 就是待求的置信区间;

枢轴量 / Pivot Quantity:我们将 Step 1 中找到的统计量 S(X) 称为枢轴量,其表达式应当包含 \theta ,但是其分布应当与 \theta 无关。

最优区间理论 / Optimal Interval Theorem:假设 f(x) 是一个单峰概率密度函数 / Unimodal pdf,如果一个区间 [a,b] 满足以下性质:

1) \int_a^b f(x) d x=1-\alpha ;

2) f(a)=f(b)>0 ;

3) \mathrm{a} ,其中 x^* 是 f(x) 的峰;

那么,我们称区间 [a,b] 是满足性质 1)的区间中的最短区间。

EX1:假设 X=(X_1,\dots,X_n) 是一个随机样本,服从正态分布 N(\mu,\sigma^2) ,其中 \mu 为已知参数。请构造关于 \sigma^2 的、置信度为 1-\alpha 的置信区间。

设 S_\mu^2=\frac{1}{n} \sum\left(X_i-\mu\right)^2 ,构造枢轴量为 \frac{n S_\mu^2}{\sigma^2}=\sum\left(\frac{X_i-\mu}{\sigma}\right)^2 \sim \chi_n^2 ,其概率分布为

P_{\sigma^2}\left(a \leq \frac{n s_\mu^2}{\sigma^2} \leq b\right)=1-\alpha\\

改写该分布式,得到 P_{\sigma^2}\left(\frac{n S_\mu^2}{b} \leq \sigma^2 \leq \frac{n S_\mu^2}{a}\right)=1-\alpha \\

其中 a 和 b 未知,是我们要构造的部分。我们要选取特定的 a 和 b 来满足该概率为 1-\alpha 。

a = {\chi_{n ;1- \alpha / 2}^2}, \quad b = {\chi_{n ; \alpha / 2}^2} \\

所以,我们得到置信区间为 \left[\frac{n S_\mu^2}{\chi_{n ; \alpha / 2}^2}, \frac{n S_\mu^2}{\chi_{n ; 1-\alpha / 2}^2}\right], \quad S_\mu^2=\frac{1}{n} \sum_{i=1}^n\left(X_i-\mu\right)^2 \\

EX2:假设 X=(X_1,\dots,X_n) 是一个随机样本,服从均匀分布 U(0,\theta) ,设 Y=max\{X_1,\dots,X_n\} 。请找出下列置信区间的包含概率:1) [aY,bY] , 1\leq a ;2) [Y+c,T+d] , 0\leq c

1)已知 \begin{align} & \mathrm{P}_\theta(\theta \in[\mathrm{aY}, \mathrm{bY}])\\ =&\mathrm{P}_\theta(\mathrm{aY} \leq \theta \leq \mathrm{bY})\\ =&\mathrm{P}_\theta(1 / \mathrm{b} \leq \mathrm{Y} / \theta \leq 1 / \mathrm{a})\\ =&\mathrm{P}_\theta(1 / \mathrm{b} \leq \mathrm{T} \leq 1 / \mathrm{a}) \\ \end{align} \\

已知 Y=X_{(n)} 的概率密度函数为 \mathrm{f}_{\mathrm{Y}}(\mathrm{y})=\mathrm{ny}^{\mathrm{n}-1} / \theta^{\mathrm{n}} ,所以 T 的概率密度函数为 \mathrm{f}_{\mathrm{T}}(\mathrm{t})=\mathrm{nt}^{\mathrm{n}-1} ,得到

\mathrm{P}_\theta(1 / \mathrm{b} \leq \mathrm{Y} / \theta \leq 1 / \mathrm{a})=\int_{1 / b}^{1 / a} n t^{n-1} d t=(1 / \mathrm{a})^{\mathrm{n}}-(1 / \mathrm{b})^{\mathrm{n}} \\

2)已知\begin{aligned} & \mathrm{P}_\theta(\theta \in[\mathrm{Y}+\mathrm{c}, \mathrm{Y}+\mathrm{d}]) \\ =& \mathrm{P}_\theta(\mathrm{Y}+\mathrm{c} \leq \theta \leq \mathrm{Y}+\mathrm{d}]\\ =&\mathrm{P}_\theta(1-\mathrm{d} / \theta \leq \mathrm{T} \leq 1-\mathrm{c} / \theta) \\ \end{aligned} \\同样,因为 T 的概率密度函数为 \mathrm{f}_{\mathrm{T}}(\mathrm{t})=\mathrm{nt}^{\mathrm{n}-1} ,得到

\mathrm{P}_\theta(1-\mathrm{d} / \theta \leq \mathrm{T} \leq 1-\mathrm{c} / \theta)=\int_{1-d / \theta}^{1-c / \theta} n t^{n-1} d t=(1-\mathrm{c} / \theta)^{\mathrm{n}} \cdot(1-\mathrm{d} / \theta)^{\mathrm{n}} \\

EX3:为了研究獾牌灯泡的寿命,我们测试了5个灯泡,发现寿命分别为2年、3年、1年、3年和4年。灯泡的平均寿命是多少?假设灯泡寿命服从指数分布 Exp(\lambda) ,请使用区间估计,找出置信度为 的置信区间。

已知在点估计中,样本均值 \bar{X} 是关于 1/\lambda 的UMVUE,设 T=2\lambda n\bar{X}\sim \chi_{2n}^2 。

根据卡方分布的性质,得到

P\left(\chi_{2n ; 1-\alpha / 2}^2 \leq 2 \lambda n \bar{X} \leq \chi_{2 n ; \alpha / 2}^2\right)=1-\alpha \\

所以得到置信区间为 \left[\frac{\chi_{2 n ; 1-\alpha / 2}^2}{2 n \bar{X}}, \frac{\chi_{2 n ; \alpha / 2}^2}{2 n \bar{X}}\right] 。

带入数据, n=5,\bar{x}= ➡️ \chi_{10,}^2=, \chi_{10,}^2= ➡️ \left[\frac{2 n \bar{x}}{\chi_{10,}^2}, \frac{2 n \bar{x}}{\chi_{10,}^2}\right]=[] 。

假设 X=(X_1,\dots,X_m) 是一个随机样本,服从正态分布 N(\mu_1,\sigma^2_1) , Y=(Y_1,\dots,Y_n) 是另一个随机样本,服从正态分布 N(\mu_2,\sigma^2_2) ,两个随机样本间相互独立。请分别找出 \mu_1-\mu_2 和 \sigma_1^2/\sigma_2^2 的置信区间。

Q1 \mu_1-\mu_2 :

先利用两个样本的均值和方差构造已知分布的统计量 \begin{aligned} \frac{(\bar{X}-\bar{Y})-\left(\mu_1-\mu_2\right)}{\sqrt{\sigma_1^2 / m+\sigma_2^2 / n}} & \sim N(0,1) \\ \frac{(m-1) S_X^2}{\sigma_1^2}+\frac{(n-1) S_Y^2}{\sigma_2^2} & \sim \chi_{m+n-2}^2\\ \end{aligned} \\

构造枢轴量 Z 为

Z=\frac{(\bar{X}-\bar{Y})-\left(\mu_1-\mu_2\right)}{\sqrt{S_X^2 / m+S_Y^2 / n}} \underset{m, n \rightarrow \infty}{\stackrel{d}{\longrightarrow}} N(0,1) \\

发现, Z 的具体分布是未知的,所以转而考虑在大样本下 Z 的渐进分布,从而得到渐进置信区间 [(\bar{X}-\bar{Y}) - z_{\alpha / 2} \sqrt{\frac{S_X^2}{m}+\frac{S_Y^2}{n}},(\bar{X}-\bar{Y}) + z_{\alpha / 2} \sqrt{\frac{S_X^2}{m}+\frac{S_Y^2}{n}}] \\

特别的,如果 \sigma_1^2=\sigma_2^2=\sigma^2 。那么, Z 的具体分布是可知的 \frac{(\bar{X}-\bar{Y})-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{(m-1) S_X^2+(n-1) S_Y^2}{m+n-2}\left(\frac{1}{m}+\frac{1}{n}\right)}} \sim t_{m+n-2} \\

从而得到置信区间为 (\bar{X}-\bar{Y}) \pm t_{m+n-2, \alpha} \sqrt{\frac{(m-1) S_X^2+(n-1) S_Y^2}{m+n-2}\left(\frac{1}{m}+\frac{1}{n}\right)} \\

Q2 \sigma_1^2/\sigma_2^2 :

已知 \frac{(m-1) S_X^2}{\sigma_1^2} \sim \chi_{m-1}^2,\quad \frac{(n-1) S_Y^2}{\sigma_2^2} \sim \chi_{n-1}^2 \\

构造枢轴量 X 为 X=\frac{S_Y^2 / \sigma_2^2}{S_X^2 / \sigma_1^2}=\frac{\sigma_1^2}{\sigma_2^2} \times \frac{S_Y^2}{S_X^2} \sim F_{n-1, m-1}\\

得到概率分布为 P_\theta\left(a \leq \frac{\sigma_1^2}{\sigma_2^2} \times \frac{S_Y^2}{S_X^2} \leq b\right)=1-\alpha \\

进一步改写为 P_\theta\left(a \frac{S_X^2}{S_Y^2} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq b \frac{S_X^2}{S_Y^2}\right)=1-\alpha \\

另一方面,又因为

P\left(X \leq F_{n-1, m-1 ; 1-\alpha / 2}\right)=P\left(X \geq F_{n-1, m-1 ; \alpha / 2}\right)=\frac{\alpha}{2} \\

从而确定实数 a 和 b 的取值P_\theta\left(\frac{S_X^2}{S_Y^2} F_{n-1, m-1 ; 1-\alpha / 2} \leq \frac{\sigma_1^2}{\sigma_2^2} \leq \frac{S_X^2}{S_Y^2} F_{n-1, m-1 ; \alpha / 2}\right)=1-\alpha \\

从而得到置信区间为

\left[\frac{S_X^2}{S_Y^2} F_{n-1, m-1 ; 1-\alpha / 2}, \quad \frac{S_X^2}{S_Y^2} F_{n-1, m-1 ; \alpha / 2}\right]\\

总结区间估计的方法 第5篇

假设总体服从分布 \mathcal{F}=\{f(x, \theta): \theta \in \Theta\} ,抽样样本为 X=(X_1,\dots,X_n) ,我们对参数 g(\theta) 进行估计。

如果是点估计,我们会寻找一个统计量 \hat{g}(X) 来估计 g(\theta) 。

如果我们想进行区间估计,我们会寻找两个统计量 \hat{g}_1(X)\leq\hat{g}_2(X) ,则 [\hat{g}_1(X),\hat{g}_2(X)] 被称为 g(\theta) 的区间估计置信区间

定义:参数 g(\theta) 的值落在置信区间 [\hat{g}_1(X),\hat{g}_2(X)] 中的概率,即 \mathrm{P}\left\{g(\theta) \in\left[\hat{g}_1(\boldsymbol{X}), \hat{g}_2(\boldsymbol{X})\right]\right\}>0 。

EX:设 X=(X_1,X_2,,X_3,X_4) 是一个随机样本,服从正态分布 N(\mu,1) ,请估计参数 \mu 。

如果是点估计,我们选取 \hat{\mu}=\bar{X} 作为估计量;如果是区间估计,我们选取 [\bar{X}-1,\bar{X}+1] 作为置信区间。

我们可以估算参数 \mu 落在置信区间内的包含概率为

\begin{aligned} \mathrm{P}(\mu \in[\bar{X}-1, \bar{X}+1]) & =\mathrm{P}(-1 \leq \bar{X}-\mu \leq 1) \\ & =\mathrm{P}\left(-2 \leq \frac{\bar{x}-\mu}{\sqrt{1 / 4}} \leq 2\right) \\ & =\mathrm{P}(-2 \leq N(0,1) \leq 2) \\ & = \end{aligned} \\

置信度 / Confidence Level:置信区间 [\hat{\theta}_1,\hat{\theta}_2] 包含参数 \theta 的可能性,即我们上面提到的包含概率。

置信系数 / Confidence Coefficient:置信度的下确界,即 \inf _{\theta \in \Theta} P_\theta\left(\hat{\theta}_1 \leq \theta \leq \hat{\theta}_2\right) 。

EX1:假设 X=(X_1,\dots,X_n) 是一个随机样本,服从正态分布 N(\mu,\sigma^2) ,其中 \mu 和 \sigma 均为未知参数。

考虑 \left[\bar{X}-\frac{k S_n^*}{\sqrt{n}}, \bar{X}+\frac{k S_n^*}{\sqrt{n}}\right] 是一个关于 \mu 的置信区间,其中 S_n^* 是样本标准差。

\begin{aligned} p_k & =\mathrm{P}\left\{\bar{X}-k S_n^* / \sqrt{n} \leq \mu \leq \bar{X}+k S_n^* / \sqrt{n}\right\} \\ & =\mathrm{P}\left\{\left|\frac{\sqrt{n}(\bar{X}-\mu)}{S_n^*}\right| \leq k\right\} \\ & =\mathrm{P}\{|t(n-1)| \leq k\} \end{aligned} \\发现该概率不依赖于正态分布的具体参数, 则置信度等于置信系数

当 n=20 ,不同 k 取值下,置信度分别为

\begin{aligned} & p_1=\mathrm{P}\left\{\bar{X}-S_n^* / \sqrt{n} \leq \mu \leq \bar{X}+S_n^* / \sqrt{n}\right\}= \\ & p_2=\mathrm{P}\left\{\bar{X}-2 S_n^* / \sqrt{n} \leq \mu \leq \bar{X}+2 S_n^* / \sqrt{n}\right\}= \\ & p_3=\mathrm{P}\left\{\bar{X}-3 S_n^* / \sqrt{n} \leq \mu \leq \bar{X}+3 S_n^* / \sqrt{n}\right\}= \end{aligned} \\

精确度 / Precision:通常定义为置信区间长度的均值, E_\theta(\hat{\theta}_2-\hat{\theta}_1) 。

EX2:假设 X=(X_1,\dots,X_n) 是一个随机样本,服从正态分布 N(\mu,\sigma^2) ,其中 \mu 和 \sigma 均为未知参数。考虑 \left[\bar{X}-\frac{k S_n^*}{\sqrt{n}}, \bar{X}+\frac{k S_n^*}{\sqrt{n}}\right] 是一个关于 \mu 的置信区间,其中 S_n^* 是样本标准差。请计算该区间估计的精准度。

\begin{aligned} l_k & =\mathrm{E}\left\{2 k S_n^* / \sqrt{n}\right\} \\ & =\frac{2 k \sigma}{\sqrt{n(n-1)}} \mathrm{E}\left\{\sqrt{\sum_{i=1}^n\left(\frac{X_i-\bar{X}}{\sigma}\right)^2}\right\} \\ & =\frac{2 k \sigma}{\sqrt{n(n-1)}} \mathrm{E}\left\{\left(\chi^2(n-1)\right)^{1 / 2}\right\} \quad \end{aligned} \\

总结:置信度和精准度之间存在一个权衡,对于一个给定的置信区间

定义:对于给定的实数 0<\alpha<1 ,我们称 [\hat{\theta}_1(X),\hat{\theta}_2(X)] 是关于参数 \theta 的一个区间估计,如果满足条件

P_\theta\left(\hat{\theta}_1(\boldsymbol{X}) \leq \theta \leq \hat{\theta}_2(\boldsymbol{X})\right) \geq 1-\alpha, \quad \theta \in \Theta \\

即, [\hat{\theta}_1(X),\hat{\theta}_2(X)] 是关于 \theta 的置信区间,置信度为 1-\alpha ,置信系数为 \inf _{\theta \in \Theta} P_\theta\left(\hat{\theta}_1 \leq \theta \leq \hat{\theta}_2\right) 。

置信区间的双重性:对于一个随机样本 X=(X_1,\dots,X_n) ,我们假设 (x_1,\dots,x_n) 是一组观测值。在抽样前,置信区间 [\hat{\theta}_1(X),\hat{\theta}_2(X)] 是一个随机区间 / Random Interval,类似随机变量;在抽样后,置信区间 [\hat{\theta}_1(x),\hat{\theta}_2(x)] 是一个观测区间 / Observed Interval,具有确定的值,不再随机。

定义:假设 \hat{\theta}_U(X) 和 \hat{\theta}_L(X) 是两个统计量,对于给定实数 0<\alpha<1 ,如果满足 \begin{aligned} & P_\theta\left(\theta \leq \hat{\theta}_U(\boldsymbol{X})\right) \geq 1-\alpha, \quad \theta \in \Theta \\ & P_\theta\left(\hat{\theta}_L(\boldsymbol{X}) \leq \theta\right) \geq 1-\alpha, \quad \theta \in \Theta \end{aligned} \\那么,我们称 \hat{\theta}_U(X) 和 \hat{\theta}_L(X) 是上置信极限 / Upper Confidence Limit下置信极限 / Lower Confidence Limit,且置信度为 1-\alpha 。

引理(置信极限与置信区间的关联):假设 \hat{\theta}_L(X) 是关于 \theta 的下置信极限,置信度为 1-\alpha_1 , \hat{\theta}_R(X) 是关于 \theta 的上置信极限,置信度为 1-\alpha_2 。则 [\hat{\theta}_L(X),\hat{\theta}_R(X)] 是关于 \theta 的置信区间,置信度为 1-(\alpha_1+\alpha_2) 。