FeatureExtraction

FeatureExtraction[{example1,example2,}]

生成用给定样例训练的 FeatureExtractorFunction[].

FeatureExtraction[examples,extractor]

使用指定的特征提取方法.

FeatureExtraction[examples,{extractor1,extractor2,}]

依次应用 extractori 以生成特征提取器.

FeatureExtraction[examples,specext]

examples 的由 spec 指定的部分使用由 ext 指定的提取方法.

FeatureExtraction[examples,{spec1ext1,spec2ext2,}]

examples 的由 speci 指定的部分使用由 exti 指定的提取方法.

FeatureExtraction[examples,extractor,props]

给出由 props 指定的特征提取属性.

更多信息和选项

  • FeatureExtraction 可用于许多类型的数据,包括数字、文本、音频、图像、图和时间序列,以及这些类型的组合.
  • examplei 可以是单一数据元素、数据元素列表、数据元素关联或者 Dataset 对象.
  • FeatureExtraction[examples] 返回可应用于特定数据的 FeatureExtractorFunction[].
  • 可能的特征提取方法包括:
  • Automatic自动提取
    Identity给出无变化的数据
    "ConformedData"一致化的图像、颜色、日期等
    "NumericVector"来自任意数据的数值向量
    f对每个样例应用函数 f
    {extractor1,extractor2,}依次使用一系列提取器
  • 也可对每个数据类型应用其他特征提取方法.
  • 数值数据:
  • "DiscretizedVector"离散化的数值数据
    "DimensionReducedVector"降维的数值向量
    "MissingImputed"缺失值被估算的数据
    "StandardizedVector"Standardize 处理过的数值数据
  • 标称数据:
  • "IndicatorVector"用指示向量独热编码的名义数据
    "IntegerVector"用整数编码的名义数据
  • 文本:
  • "LowerCasedText"每个字符均为小写的文本
    "SegmentedCharacters"分割成字符的文本
    "SegmentedWords"分割成单词的文本
    "TFIDF"词频逆向文件频率向量
    "WordVectors"文字的语义向量序列(仅限英文)
  • 图像:
  • "FaceFeatures"来自人脸图像的语义向量
    "ImageFeatures"图像的语义向量
    "PixelVector"图像像素值向量
  • 音频对象:
  • "AudioFeatures"音频对象的语义向量序列
    "AudioFeatureVector"音频对象的语义向量
    "LPC"音频线性预测系数
    "MelSpectrogram"用对数频次分组的音频频谱图
    "MFCC"音频梅尔频率倒谱系数向量序列
    "SpeakerFeatures"讲话者的语义向量序列
    "SpeakerFeatureVector"讲话者的语义向量
    "Spectrogram"音频频谱图
  • 视频对象:
  • "VideoFeatures"来自视频对象的语义向量序列
    "VideoFeatureVector"来自视频对象的语义向量
  • 图:
  • "GraphFeatures"总结图的属性的数值向量
  • 分子:
  • "AtomPairs"来自原子对的布尔向量以及它们之间的路径长度
    "MoleculeExtendedConnectivity"来自枚举的分子子图的布尔向量
    "MoleculeFeatures"概括分子属性的数值向量
    "MoleculeTopologicalFeatures"来自圆形原子邻域的布尔向量
  • 特征提取程序方法被应用于类型与它们兼容的数据元素. 其它数据元素被无变化地返回.
  • FeatureExtraction[examples] 等价于 FeatureExtraction[examples,Automatic],通常等价于 FeatureExtraction[examples,"NumericVector"].
  • "NumericVector" 方法通常会将样例转换为数值向量,估算缺失值,并使用 DimensionReduction 降低维度.
  • FeatureExtraction[examples,extractors,props] 中,props 可以是单一属性或属性列表. 可能的属性包括:
  • "ExtractorFunction"FeatureExtractorFunction[](默认)
    "ExtractedFeatures"特征提取之后的 examples
    "ReconstructedData"提取和逆提取之后的 examples
    "FeatureDistance"从提取程序生成的 FeatureDistance[]
  • FeatureExtraction[examples,specext]FeatureExtraction[examples,{spec1ext1,}] 中, specspeci 的可能形式包括:
  • All各样例的所有部分
    i各样例的第 i 个部分
    {i1,i2,}各样例的部分 i1i2
    "name"在各样例中具有指定名称的部分
    {"name1","name2",}在各样例中名为 "namei" 的部分
  • 未在 specspeci 提及的部分将出于提取特征的目的而被删除.
  • FeatureExtract[examples,{spec1ext1,}] 中,exti 被全部分别应用于 examples.
  • 可以给出以下选项:
  • FeatureNames Automatic赋给 examplei 的元素的名称
    FeatureTypes Automaticexamplei 的元素要假定的特征类型
    RandomSeeding1234应该在内部对伪随机数生成器进行什么样的初始化
  • RandomSeeding 的可能设置包括:
  • Automatic每次函数调用时自动重新播种
    Inherited使用外部播种的随机数字
    seed用明确给定的整数或字符串作为种子
  • FeatureExtraction[,"ExtractedFeatures"] 等价于 FeatureExtract[].
  • FeatureExtraction[,"FeatureDistance"] 等价于 FeatureDistance[FeatureExtraction[]].

范例

打开所有单元关闭所有单元

基本范例  (3)

在简单的数据集上训练 FeatureExtractorFunction

从新的样例提取特征:

从一个样例列表提取特征:

在图像数据集上训练特征提取程序:

在训练集上使用特征提取程序:

使用 "StandardizedVector" 提取程序方法从数值数据集建立特征提取程序:

在训练集上使用特征提取程序:

属性 "ExtractedFeatures" 可用于一步完成此操作:

可以查询多个属性:

范围  (14)

在文本数据上训练特征提取程序:

在新的样例上使用特征提取程序:

在一个 DateObject 列表上训练特征提取程序:

从新的 DateObject 提取特征:

也可以给出字符串日期:

Graph 列表上训练特征提取器:

从新图中提取特征:

TimeSeries 列表上训练特征提取器:

从新的 TimeSeries 中提取特征:

训练特征提取程序计算文本的词频逆向文件频率向量:

训练集的词频逆向文件频率矩阵可以在 SparseArray 中计算:

可视化矩阵:

"TFIDF" 方法也可以用于标记的数据(名义袋):

在文本上先后使用 "TFIDF" 方法和 "DimensionReduced" 方法训练特征提取程序:

在训练集上提取特征:

用自定义函数生成特征提取器:

在训练集上应用提取器:

"StandardizedVector" 方法把自定义提取器链接起来:

在名义变量上通过 "IndicatorVector" 方法训练特征提取程序:

从新的样例提取特征:

通过 "IndicatorVector" 方法仅对第二个名义变量训练特征提取程序:

第一个名义变量被删除:

使用 Identity 提取程序方法复制第一个变量:

第一个变量被复制:

可以多次复制一个变量:

在混合类型数据集上训练特征提取程序:

从新的样例提取特征:

使用 "TFIDF" 方法在文本和图像上训练特征提取程序:

特征将仅从文本部分提取:

从包含缺失值的数据集训练特征提取程序:

即使是在值丢失的情况下,这个特征提取程序也可以提取特征:

使用 "StandardizedVector" 方法训练特征提取程序:

从新的样例提取特征:

由于此特征提取程序是可逆的,FeatureExtractorFunction 的属性 "OriginalData" 可用于执行逆向提取:

有些特征提取程序只能进行逆向提取的近似:

FeatureExtraction 的属性 "ReconstructedData" 可用于获得提取和重构后的数据:

有些特征提取程序不可逆:

从一个关联列表训练特征提取程序:

从新的样例提取特征:

选项  (3)

FeatureNames  (2)

训练特征提取程序,给每个特征一个名称:

使用关联格式从新的样例提取特征:

依然可以使用列表格式:

使用 FeatureNames 设置名称,并在 FeatureExtraction[examples,{spec1ext1,}] 中引用它们:

FeatureTypes  (1)

在简单数据集上通过 "IndicatorVector" 训练特征提取程序:

第一个特征被解释为数值型. 由于 "IndicatorVector" 方法仅作用于名义特征,第一个特征不变:

使用 FeatureTypes 执行作为名义的第一个特征的诠释:

应用  (3)

图像搜索  (1)

建立一个狗图片的数据集:

从这个数据集训练提取程序函数:

生成关于数据集的提取特征的 NearestFunction

使用 NearestFunction,构建一个函数,显示数据集的最相近图像:

将这个函数用于不在这个数据集的图像:

这个特征提取程序函数也可以用于删除过于相似的图像对:

文本搜索  (1)

加载 Alice in Wonderland 的文本:

将文本拆分为单句:

在这些单句上训练特征提取程序:

生成带有单句特征的 NearestFunction

使用 NearestFunction,构建一个函数,显示 Alice in Wonderland 中最相近的单句:

将这个函数用于几个查询:

估算  (1)

ExampleData 中加载 "MNIST" 数据集,并保留图像:

将图像转换为数值数据,并将数据集分离成训练集和测试集:

数据集的维度为 784

使用 "MissingImputed" 方法创建特征提取程序:

Missing[] 替换测试集向量的某些值,并可视化:

使用 FeatureExtractorFunction[] 估算缺失值:

可视化原始图像、带有缺失值的图像和估算后的图像:

Wolfram Research (2016),FeatureExtraction,Wolfram 语言函数,https://reference.wolfram.com/language/ref/FeatureExtraction.html (更新于 2021 年).

文本

Wolfram Research (2016),FeatureExtraction,Wolfram 语言函数,https://reference.wolfram.com/language/ref/FeatureExtraction.html (更新于 2021 年).

CMS

Wolfram 语言. 2016. "FeatureExtraction." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2021. https://reference.wolfram.com/language/ref/FeatureExtraction.html.

APA

Wolfram 语言. (2016). FeatureExtraction. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/FeatureExtraction.html 年

BibTeX

@misc{reference.wolfram_2024_featureextraction, author="Wolfram Research", title="{FeatureExtraction}", year="2021", howpublished="\url{https://reference.wolfram.com/language/ref/FeatureExtraction.html}", note=[Accessed: 22-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_featureextraction, organization={Wolfram Research}, title={FeatureExtraction}, year={2021}, url={https://reference.wolfram.com/language/ref/FeatureExtraction.html}, note=[Accessed: 22-November-2024 ]}