进行自助抽样分析—Wolfram Documentation

How to| 进行自助抽样分析

假设您有数量有限的一组数据，从中获取对总体的统计估计. 如对这些估计的抽样分布进行近似，可以通过从原始数据中抽取新样本，然后计算每个样本的统计量来实现. 这个过程称为自助抽样（Bootstrap），在 Wolfram 语言中可以通过 RandomChoice 完成.

首先，这是一组数据集：

可以使用 RandomChoice 进行不放回抽样. 将 Length[data] 作为第二个参数放在 RandomChoice 中，将生成一个与原始样本同等大小的新样本：

假设原始数据集代表着它所来自的较大总体，则重新抽样得到的样本值应该与从原始总体抽样得到的样本相似. 因此，从原始数据集得到的样本的统计量，能够模拟总体的样本统计量.

使用 Skewness 计算原始数据的偏度：

计算重新抽样所得数据的偏度：

通过对原始数据集多次重新抽样，并计算每个样本的偏度，可以对偏度的样本分布进行近似.

这里，用 Table 对1000个重新抽样数据集的偏度值进行迭代计算：

可以使用 Histogram 直观地查看这1000个重新抽样数据集偏度值的样本分布：

重新抽样的值列表为估计量提供了一个样本空间（在这里为偏度），因此您还可计算其它的统计量.

估计偏度估计的标准误差. 估计的标准偏差为标准误差：

使用 Quantile 获取样本偏度的95%置信区间：

自助抽样分析还可以用于更加复杂的结果，例如最大似然拟合的参数估计.

从伽玛分布中产生一些点，并显示数据的直方图：

假定一个数据集服从某一给定分布，并从数据集中获取参数估计往往很有用. 例如，对从伽玛分布所产生的一组数据，您可能希望用最大似然法对参数 α 和 β 进行估计.

利用 FindDistributionParameters 您可以获得整个数据集的对数似然函数：

现在，通过将数据用原始数据集的重新取样值代替，您可以对参数估计的统计量进行自助抽样分析. 这可以通过 RandomChoice 得到重新取样的数据集来完成：

将该计算定义为函数 params：

您可以多次计算 params 以生成 α 与 β 的大量估计，从而得到参数的一个样本空间.

将 Table 用于 params 生成 α 与 β 的100个估计：

取估计的均值，得到参数值的一个自助抽样估计：

可以得到参数估计的相关矩阵，从而对 α 与 β 的估计之间的关系进行评估：

Top

更多学习资源