ZipfDistribution

ZipfDistribution[ρ]

表示一个带有参数 ρ 的 zeta 分布.

ZipfDistribution[n,ρ]

表示一个范围为 n 的齐夫分布.

更多信息

背景

  • ZipfDistribution[n,ρ] 表示一个离散统计分布,定义于整数值 ,并由正实数 ρ 和正整数 n (分布的范围)所确定. Zipf 分布的概率密度函数(PDF)是离散和单调递减的,其整体形状(展布、分布域和陡度)由 ρn 的值决定. 此处所说的 Zipf 分布有时也被称作 Estoup 分布. 单参数形式为 ZipfDistribution[ρ],等价于 nZipfDistribution[n,ρ] 的极限,为通常情况下大家所讲的 Zipf 分布,尽管它也可以被称作 zeta 分布、Zipfian 分布或离散 Pareto 分布(不要与连续 ParetoDistribution 分布相混淆).
  • Zipf 分布得名于美国语言学家 George Zipf,从二十世纪三十年代到四十年代,他在自己关于行为和心理学的工作中大量运用 Zipf 分布. 尽管早在1912年,法国速记员 Jean-Baptiste Estoup 已经在类似领域对该分布进行了研究和运用,但 Zipf 从工作中发现了如今广为人知的齐普夫定律(以 Zipf 分布为基础),定律的内容为:在自然语言的使用中,词的频率与其在该语言的词表中的排名成反比. 因此,Zipf 分布在现代社会中的许多应用都与语言学和语义学有关,同时,Zipf 分布也被用于分析数论、生物学和经济学中的现象.
  • RandomVariate 可用来给出一个或更多机器精度或任意精度(后者可通过设置 WorkingPrecision 选项获得)的 Zipf 分布中的伪随机变数. Distributed[x,ZipfDistribution[n,ρ]],更简洁的式子为 xZipfDistribution[n,ρ],可用来断定随机变量 x 服从 Zipf 分布. 它也可以被用在诸如 ProbabilityNProbabilityExpectationNExpectation 这样的函数中.
  • 通过使用 PDF[ZipfDistribution[n,ρ],x]CDF[ZipfDistribution[n,ρ],x],可以得到 Zipf 分布的概率密度和累积分布函数,但我们要注意,Zipf 分布的概率分布函数的解析式是不存在的. 可以用 MeanMedianVarianceMomentCentralMoment 来分别计算均值、中位数、方差、原始矩和中心矩,同时,可以使用 DiscretePlot 来绘制上述各量的图形.
  • 可以用 DistributionFitTest 来检测一个数据集是否符合 Zipf 分布,根据给定数据,用 EstimatedDistribution 来估计 Zipf 参数分布,而 FindDistributionParameters 则可用来将数据拟合成 Zipf 分布. 用 ProbabilityPlot 指令可以产生给定数据的 CDF 与符号式 Zipf 分布的 CDF 的比较图,QuantilePlot 则能绘制给定数据的分位数和符号式 Zipf 分布的分位数的比较图.
  • 可以用 TransformedDistribution 来表示转换过的 Zipf 分布,用 CensoredDistribution 表示截尾后位于上限和下限值之间的数据的分布,而 TruncatedDistribution 则表示删失后位于上限和下限值之间的数据的分布. CopulaDistribution 可用来构建包含 Zipf 分布的高维分布, ProductDistribution 可计算独立分量包括 Zipf 分布的联合分布.
  • ZipfDistribution 和许多其他统计分布有关. Zipf 分布经常被认为是 ParetoDistribution 的离散化版本,因此与 PowerDistributionStableDistributionExponentialDistributionPearsonDistributionBetaPrimeDistribution 都有关. ZipfDistribution 还与 CauchyDistributionLevyDistributionPoissonDistributionPoissonConsulDistributionSkellamDistribution 相关.

范例

打开所有单元关闭所有单元

基本范例  (4)

概率质量函数:

在有限范围的情况下:

累积分布函数:

在有限范围的情况下:

均值:

方差:

范围  (7)

生成服从齐夫分布的伪随机数样本:

比较直方图与概率密度函数:

分布参数估计:

根据样本数据估计分布参数:

比较样本的密度直方图与所估计分布的概率密度函数:

偏度:

求偏度为最小值处:

范围为 n 时:

峰度:

求峰度为最小值处:

范围为 n 时:

以参数的函数形式表示不同矩的解析式:

Moment

Moment 有相应的解析式表示:

范围为 n 时:

具有符号式阶数的解析式:

CentralMoment

范围为 n 时:

FactorialMoment

范围为 n 时:

Cumulant

范围为 n 时:

风险函数:

范围为 n 时:

分位数函数:

范围为 n 时:

应用  (6)

ZipfDistributionCDF 是右连续函数的一个例子:

在文本中单词计数服从齐夫分布:

对单词频率数据进行 ZipfDistribution 拟合:

比较频率直方图和估计分布:

求一个单词出现次数多于10次的概率:

求单词出现的平均数:

根据流行度对15个网页进行排名,访问频率服从 的齐夫分布. 求访问频率的分布:

求访问排名第一的网页的概率:

求访问排名最后的五个网站之一的概率:

模拟30次独立的访问:

在线电影租赁网站拥有2000个影片名称,在缓存中保持最流行的影片名称,以提供更快捷的服务. 求在缓存中必须保存的最小影片名称数,以使得被请求的电影在缓存中的概率为 0.99:

ZipfDistribution 可用于建立随机数间的 GCD 的分布模型:

创建一个随机样本:

用齐夫分布拟合数据:

用一个数据范围内的齐夫分布拟合数据:

比较样本的直方图和两个估计分布:

比较对数似然值:

有限范围的条件明显改变了分布的统计量:

标准偏差:

中位数是一样的:

在恐怖袭击下的死亡和受伤人数服从 ZipfDistribution

用一个齐夫分布拟合数据:

比较数据的直方图和估计分布的 PDF:

属性和关系  (7)

得到正整数以外的任意实数的概率是零:

概率质量和随机变量具有幂律关系:

齐夫分布中第 个值与第一个值的相对频率是 的幂:

在极限情况下,第二个值的频率是第一个值的 ,第三个值的频率是第一个值的 ,依此类推:

在截断情况下,新生成的分布仍然是齐夫分布:

有范围:

与其它分布的关系:

在极限情况下,两个齐夫分布相等:

Khintchine 的无限可约分 Riemann zeta 分布与 ZipfDistribution 相关:

验证 ζ 的特征函数是 Riemann zeta 函数的预期比率:

可能存在的问题  (2)

ZipfDistributionρ 为非正数时没有定义:

用无效参数代入符号式输出,得到的计算结果没有任何意义:

Wolfram Research (2007),ZipfDistribution,Wolfram 语言函数,https://reference.wolfram.com/language/ref/ZipfDistribution.html (更新于 2010 年).

文本

Wolfram Research (2007),ZipfDistribution,Wolfram 语言函数,https://reference.wolfram.com/language/ref/ZipfDistribution.html (更新于 2010 年).

CMS

Wolfram 语言. 2007. "ZipfDistribution." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2010. https://reference.wolfram.com/language/ref/ZipfDistribution.html.

APA

Wolfram 语言. (2007). ZipfDistribution. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/ZipfDistribution.html 年

BibTeX

@misc{reference.wolfram_2024_zipfdistribution, author="Wolfram Research", title="{ZipfDistribution}", year="2010", howpublished="\url{https://reference.wolfram.com/language/ref/ZipfDistribution.html}", note=[Accessed: 22-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_zipfdistribution, organization={Wolfram Research}, title={ZipfDistribution}, year={2010}, url={https://reference.wolfram.com/language/ref/ZipfDistribution.html}, note=[Accessed: 22-November-2024 ]}