KernelMixtureDistribution

KernelMixtureDistribution[{x1,x2,}]

表示基于数据值 xi 的核混合分布.

KernelMixtureDistribution[{{x1,y1,},{x2,y2,},}]

表示基于数据值 {xi,yi,} 的多变量核混合分布.

KernelMixtureDistribution[,bw]

表示带宽为 bw 的核混合分布.

KernelMixtureDistribution[,bw,ker]

表示带宽为 bw、平滑核为 ker 的核混合分布.

更多信息和选项

  • KernelMixtureDistribution 返回一个 DataDistribution 对象,其用法和任何其它概率分布相似.
  • 对于值 ,其 KernelMixtureDistribution 的概率密度函数由 给出,其中 为一个平滑核, 为带宽参数.
  • 可以给出下列带宽规范说明 bw
  • h所用的带宽
    {"Standardized",h}以标准偏差为单位的带宽
    {"Adaptive",h,s}初始带宽为 h、灵敏度为 s 的自适应带宽
    Automatic自动计算带宽
    "name"使用一种已命名的带宽选择法
    {bwx,bwy,}xy 等单独指定的带宽规范
  • 对于多变量密度,h 可以是一个正定的对称矩阵.
  • 对于自适应带宽,敏感度 s 必须是一个位于 0 和 1 之间的实数或者 Automatic. 如果使用 Automatic,则 s 设为,其中 是数据维度.
  • 可能的已命名带宽选择法包括:
  • "LeastSquaresCrossValidation"使用最小二乘交叉验证的方法
    "Oversmooth"比标准高斯宽 1.08 倍
    "Scott"使用 Scott 规则确定带宽
    "SheatherJones"使用 SheatherJones代入估计
    "Silverman"使用 Silverman 规则确定带宽
    "StandardDeviation"使用标准差作为带宽
    "StandardGaussian"标准正态数据的最优带宽
  • 默认情况下,使用 "Silverman" 方法.
  • 对于自动带宽计算,假定常量数组有单位方差.
  • 可以给出下列核规范说明 ker
  • "Biweight"
    "Cosine"
    "Epanechnikov"
    "Gaussian"
    "Rectangular"
    "SemiCircle"
    "Triangular"
    "Triweight"
    funcf_nu in R
  • 为使 KernelMixtureDistribution 生成真实的密度估计,函数 fn 应为一个有效的单变量概率密度函数.
  • 默认情况下,使用 "Gaussian" 核.
  • 对于多变量密度,核函数 ker 可以使用 {"Product",ker}{"Radial",ker} 指定为乘积和径向类型. 如果没有指定类型,则使用乘积类型的核.
  • 用于密度估计的精确度是在 bw 和数据中给出的最小精确度.
  • 可以给出下列选项:
  • MaxMixtureKernels Automatic所用核的最大数目
  • KernelMixtureDistribution 可以与 MeanCDFRandomVariate 等函数联合使用.

范例

打开所有单元关闭所有单元

基本范例  (3)

创建单变量数据的核密度估计:

使用得到的分布进行分析,包括对分布函作图:

计算矩和分位数:

创建一些双变量数据的核密度:

对估计的概率密度函数和累积分布函数进行作图:

计算协方差和一般矩:

创建核密度估计的符号表示:

研究符号式性质:

范围  (47)

基本用途  (8)

对一些数据创建一个内核密度估计:

计算这个分布的概率:

为含有量的数据产生核密度估计:

求矩:

增加带宽以获得更平滑的估计:

允许带宽随着局部密度值自适应地变化:

识别有助于参数型模型拟合的数据特征:

估计量表明最大似然估计的形式和起始值:

使用较高维度的核密度估计:

四维核密度估计:

来自这个分布的样本:

利用自定义核函数,探索核密度估计量的属性:

对多变量估计,指定径向或者乘积类型的核:

分布属性  (10)

估计分布函数:

概率密度函数和累积分布的前几项:

计算分布的矩:

特殊矩:

一般矩:

通常可以使用解析方法计算矩:

使用符号式自适应带宽,计算方差的解析表达式:

分位数函数:

特殊的分位数值:

生成随机数:

KernelMixtureDistribution 比较:

计算概率和期望:

母函数:

估计双变量分布函数:

计算双变量分布的矩:

特殊矩:

一般矩:

生成随机数:

带宽选择  (19)

自动选择要使用的带宽:

较多的数据将得到对底层分布的较好估计:

显式指定要用的带宽:

使用带宽 0.11.0

带宽越大,估计越平滑:

带宽不一定是数值型的:

估计量的概率密度函数和累积分布函数:

以标准差为单位指定带宽:

允许带宽根据局部密度进行相应的变化:

局部灵敏度从 0 (无) 到 1 (完全) 变化:

把敏感度设置为 Automatic 将使用 ,其中 是数据维度:

概率密度函数是相等的:

变化自适应估计的初始带宽:

分别指定 1 和 0.1 为初始带宽:

使用任意的自动带宽选择方法:

默认情况下,使用 Silverman 方法:

概率密度函数是等价的:

在多变量情况下,带宽是一个对称的正定 × 矩阵:

给出一个标量型的 h 实际上使用的是 h IdentityMatrix[p]

指定对角线元素 d 实际上使用的是 DiagonalMatrix[d]

任何对称正定的 × 矩阵都可以给出:

默认情况下,Silverman 方法用于独立选择每个维度上的带宽:

任何自动方法都可以用于独立选择对角线带宽元素:

用于估计对角线的方法无需相同:

在各个维度上使用自适应、过度平滑化的和恒等的带宽:

绘制单变量边缘概率密度函数的图线:

给出一个标量值,以便在所有维度上使用相同的带宽:

若要使用非零的非对角线元素,给出一个完全指定的带宽矩阵:

带宽矩阵控制单个核的方差和方向:

标量带宽:

每个维度上的带宽:

完全指定的带宽矩阵:

一些已命名的带宽方法遵循经验法则:

一些已命名的带宽方法的公式:

估计量是等价的:

最小二乘交叉验证方法:

利用高斯核与带宽 的概率密度函数的期望:

留一法得到的密度估计量的概率密度函数的期望:

通过最小化 上的最小二乘交叉验证函数求带宽:

Sheather 和 Jones 方法使用一个插入估计量求解带宽:

Sheather 和 Jones 估计量:

估计量是等价的:

核函数  (10)

指定任意的核函数:

定义核函数为一个纯函数:

默认情况下,使用高斯核:

这与使用 NormalDistribution[0,1] 的概率密度函数等价:

一些单变量核函数的形状:

指定多变量数据的任意核函数:

一些双变量乘积核的形状:

对多变量数据,在乘积和径向类型的核函数之间选择:

在二维情况下,单个 biweight 核的计算:

径向类型:

带宽对径向和乘积类型的核有相似的效果:

标量带宽在每个维度上均匀地对核进行延伸:

在每个轴上,对角线元素独立地对核进行延伸:

非零的非对角线元素改变方向:

不同的核函数的概率密度函数:

在数据服从正态分布的假定下,核的效率:

内置的核函数都有相对较高的统计效率:

选项  (7)

MaxMixtureKernels  (7)

在缺省设置下,当样本量小于300时,核将在各个数据点上放置:

对于更大的样本量,默认情况下,将使用300个均匀放置的核的最大值:

指定估计中所用的最大核数:

放置至多5个核:

核数越多,对底层函数的估计越好:

在各数据点上放置一个核:

变化用于相同数目核的带宽:

指定双变量数据在各维数上所用的核数:

分别放置至多10和100个核:

在各维数上设置不同的最大核数:

指定核最大值为5与50或50与5:

应用  (6)

比较所估计的密度与理论模型:

当需要高分辨率时,使用自适应带宽和多个混合核:

模型的矩与估计的矩相似:

估计 Apple 股票在纳斯达克上的每日变化分布:

对于重尾数据,增大 MaxMixtureKernels 选项的设置以得到较平滑的估计:

计算在给定的一天里,出现 10% 点或者更多变化的概率:

计算纽约布法罗市的降雪量分布:

不同带宽得到降雪量分布的不同图示:

确定下述6种识别伪钞的方法中哪一种可能最有效:

第6种方法似乎对于分别两类钞票是最好的:

用方法6作为分类符,且截止值为140.5,求误分类的概率:

求使得概率密度函数的均方误差(MSE)最小化的带宽:

使用该带宽估计概率密度函数:

KernelMixtureDistribution 可用于创建椭圆分布. 椭圆分布是多变量正态分布的一个推广:

对边缘使用 NormalDistribution[0,1] 给出 MultinormalDistribution[μ,Σ]

一些其它的椭圆分布:

属性和关系  (9)

所得的密度估计的积分为1:

密度是核函数的加权和:

KernelMixtureDistribution 是内在分布的一致的估计量:

实际使用的核数目将不会大于样本数:

最多放置 10000 个核:

项数对应于使用的核数:

随着带宽趋向于无穷,估计接近核的形状:

KernelMixtureDistribution 的线性插值是 SmoothKernelDistribution

KernelMixtureDistribution 产生核的一个 MixtureDistribution

当输入为 TimeSeriesEventSeries 时,KernelMixtureDistribution 只能用于数值:

与下面所得结果相同:

当输入为 TemporalData 时,KernelMixtureDistribution 可用于所有的数值:

与下面所得结果相同:

可能存在的问题  (5)

核函数必须是一个概率密度函数:

得到的密度估计不是概率密度函数:

自动的自适应带宽对于大样本量而言可能会过小:

试着增加初始带宽 MaxMixtureKernels,或降低灵敏度:

在含有符号数据的数据点上必须放在一个核:

MaxMixtureKernels 设置为 All 或者 Automatic

"SheatherJones""LeastSquaresCrossValidation" 方法中不能使用符号数据:

指定不要求估计的带宽:

一些核函数是有界的,并且触发了图线中的某些排除:

Exclusions 选项设为 None,以避免错误的间隙以及降低图线的计时:

巧妙范例  (2)

使用 KernelMixtureDistribution 对一个二值图像应用高斯模糊处理:

计算一个完全符号式的三变量密度估计:

Wolfram Research (2010),KernelMixtureDistribution,Wolfram 语言函数,https://reference.wolfram.com/language/ref/KernelMixtureDistribution.html (更新于 2016 年).

文本

Wolfram Research (2010),KernelMixtureDistribution,Wolfram 语言函数,https://reference.wolfram.com/language/ref/KernelMixtureDistribution.html (更新于 2016 年).

CMS

Wolfram 语言. 2010. "KernelMixtureDistribution." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2016. https://reference.wolfram.com/language/ref/KernelMixtureDistribution.html.

APA

Wolfram 语言. (2010). KernelMixtureDistribution. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/KernelMixtureDistribution.html 年

BibTeX

@misc{reference.wolfram_2024_kernelmixturedistribution, author="Wolfram Research", title="{KernelMixtureDistribution}", year="2016", howpublished="\url{https://reference.wolfram.com/language/ref/KernelMixtureDistribution.html}", note=[Accessed: 22-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_kernelmixturedistribution, organization={Wolfram Research}, title={KernelMixtureDistribution}, year={2016}, url={https://reference.wolfram.com/language/ref/KernelMixtureDistribution.html}, note=[Accessed: 22-November-2024 ]}