BenfordDistribution

BenfordDistribution[b]

表示基数参数为 b 的本福特分布.

更多信息

背景

  • BenfordDistribution[b] 表示一个定义在整数值 上的离散统计分布,称为本福特分布,其中参数 b 被称为基数参数,是满足 的整数. 本福特分布有时又被称为第一位数分布. 它的离散概率密度函数(PDF)是单调递减的.
  • 本福特分布与美国物理学家 Frank Benford 有关,和他同名的Benford 定律(有时又被称为 NewcombBenford 定律,这是为了纪念加拿大裔美籍数学家 Simon Newcomb,他比 Benford 早大约 50 年发表了同一结果)构成了这一分布的基础. Benford 定律是说在基数 的情况下,许多真实世界数据集中数字的第一位数是 1 的概率并不是 1/9 11.1%(这是看似自然的预期),实际上是接近 30%. 而且,数字 作为首位数字的整体概率大约是 .(这个结果可以推广到 的基数,只要改掉公式中对数的底数.)已经在大量无关数据集中观察到了 Benford 定律,包括物理和数学常数列表,股票价格,人口数量以及死亡率等. 在一般情况下,本福特分布是跨越多个数量级的值分布的最佳近似. 它也被扩展到了关于第二及后续各位数字的频率还有前 位数字()序列的频率.
  • RandomVariate 可被用于给出本福特分布的一个或多个机器精度或任意精度(后者可用 WorkingPrecision 选项指定)的伪随机变量. Distributed[x,BenfordDistribution[b]],更简洁的写法是 xBenfordDistribution[b],可被用于声明随机变量 x 是本福特分布的. 这样一个声明之后可用在如 ProbabilityNProbabilityExpectation 以及 NExpectation 这样的函数中.
  • 概率密度函数和累积分布函数可用 PDF[BenfordDistribution[b],x]CDF[BenfordDistribution[b],x] 求得. 平均数、中位数、方差、原点矩及中心矩可分别用 MeanMedianVarianceMomentCentralMoment 计算. 这些量可用 DiscretePlot 可视化.
  • DistributionFitTest 可被用于测试给定的数据集是否与本福特分布一致,EstimatedDistribution 可被用于根据给定数据估算本福特参数化分布,而 FindDistributionParameters 可拟合数据和本福特分布. ProbabilityPlot 可被用于生成给定数据的 CDF 相对于符号本福特分布的 CDF 的图线,而 QuantilePlot 可被用于生成给定数据的分位数相对于符号本福特分布的分位数的图线.
  • TransformedDistribution 可被用于表示转换的本福特分布,CensoredDistribution 可被用于表示删截后位于上限值和下限值之间的值分布,而 TruncatedDistribution 可被用于表示截断后位于上限值和下限值之间的值分布. CopulaDistribution 可被用于建立包含了本福特分布的高维分布,而 ProductDistribution 可被用于计算包括本福特分布在内的,若干个独立分量分布的联合分布.
  • BenfordDistribution 与许多其它分布密切相关,包括 ZipfDistributionParetoDistribution. 其它分布通过 Benford 定律和 BenfordDistribution 相关. 例如,有实证检验表明分布为 ExponentialDistributionWeibullDistributionGammaDistributionLogLogisticDistributionExponentialPowerDistribution 的随机数满足 Benford 定律,而根据 UniformDistributionHalfNormalDistributionNormalDistributionGumbelDistribution 分布生成的随机数则不满足这一定律. 还有一些其它分布和 Benford 定律是否相关取决于它们的输入参数. 例如根据 ChiSquareDistribution[1] 生成的随机数满足 Benford 定律,而 ChiSquareDistribution[ν]ν 增大时和 Benford 定律的符合程度就会降低. 类似的,依照 FRatioDistribution[n,m] 分布的随机变量采样在 nm 值较小时遵循 Benford 定律,当 nm 值增加时符合程度就降低,依照 LogNormalDistribution[μ,σ] 分布的随机变量在 μσ 值较大时与 Benford 定律的符合程度更高(改变 σ 值的影响比改变 μ 值影响更大).

范例

打开所有单元关闭所有单元

基本范例  (5)

概率质量函数:

累积分布函数:

均值:

方差:

中位数:

范围  (6)

产生一组本福特分布的伪随机数样本:

比较直方图和概率密度函数:

分布参数估计:

从样本数据中估计分布参数:

比较样本的密度直方图和估计分布的概率密度函数:

偏度在 时有定义:

峰度在 时有定义:

风险函数:

分位数函数:

应用  (3)

本福特分布近似于一个跨越多个数量级的数值分布. 考虑一个服从重尾分布的样本:

查看最小值和最大值之间的数量级:

提取第一个数字:

比较直方图和对应的 BenfordDistribution 的概率密度函数:

现在考虑一个轻尾分布的样本:

查看最小值和最大值之间的数量级:

比较直方图和对应于 BenfordDistribution 的概率密度函数:

检查美国最大的一些城市人口是否服从本福特分布:

前100个大城市的人口不严格服从本福特分布:

考虑物理常数:

求第一个数位,不考虑单位:

第一个数位不服从正态分布;很可能服从本福特定律:

检查假设是否能被拒绝:

Wolfram Research (2010),BenfordDistribution,Wolfram 语言函数,https://reference.wolfram.com/language/ref/BenfordDistribution.html.

文本

Wolfram Research (2010),BenfordDistribution,Wolfram 语言函数,https://reference.wolfram.com/language/ref/BenfordDistribution.html.

CMS

Wolfram 语言. 2010. "BenfordDistribution." Wolfram 语言与系统参考资料中心. Wolfram Research. https://reference.wolfram.com/language/ref/BenfordDistribution.html.

APA

Wolfram 语言. (2010). BenfordDistribution. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/BenfordDistribution.html 年

BibTeX

@misc{reference.wolfram_2024_benforddistribution, author="Wolfram Research", title="{BenfordDistribution}", year="2010", howpublished="\url{https://reference.wolfram.com/language/ref/BenfordDistribution.html}", note=[Accessed: 18-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_benforddistribution, organization={Wolfram Research}, title={BenfordDistribution}, year={2010}, url={https://reference.wolfram.com/language/ref/BenfordDistribution.html}, note=[Accessed: 18-November-2024 ]}