Classify

内置分类器列表 »

Classify[{in1class1,in2class2,}]

生成一个 ClassifierFunction,尝试根据范例 ini 预测 classi.

Classify[data,input]

试图从给出的训练范例中预测与 input 相关的输出.

Classify[data,input,prop]

计算与预测值相关的指定属性 prop.

更多信息和选项

范例

打开所有单元关闭所有单元

基本范例  (2)

在带有标签的例子上训练分类器:

使用分类器函数对不带标签的例子进行分类:

绘制例子类别为 "B" 的概率,作为特征的函数:

训练具有多个特征的分类器:

对可能包含缺失特征的新范例进行分类:

范围  (33)

数据格式  (7)

将训练集指定为输入范例和输出值之间的规则列表:

每个范例都可以包含一个特征列表:

每个范例都可以包含一个特征关联:

将训练集指定为输入列表和输出列表之间的规则列表:

指定矩阵中的所有数据并标记输出列:

在关联列表中指定所有数据并标记输出键:

指定数据集中的所有数据并标记输出列:

数据类型  (13)

数字  (3)

根据数字预测变量:

根据数字向量预测变量:

根据任意深度的数字数组预测变量:

标称值  (3)

根据标称值预测类别:

根据数个标称值预测类别:

根据标称值和数值预测类别:

数量  (1)

根据包括 Quantity 对象在内的数据训练分类器:

在新的范例上使用分类器:

在仅知道 "Price" 的情况下,预测最可能的价格:

文本  (1)

在文本数据上训练分类器:

对新例子进行分类:

颜色  (1)

根据颜色表达式预测变量:

图像  (1)

训练预测器,根据图像预测动物种类:

序列  (1)

在数据上训练分类器,其中特征是令牌序列:

缺失数据  (2)

在具有缺失特征的数据集上训练分类器:

对包含缺失特征的范例也进行分类:

在具有命名特征的数据集上训练分类器. 键的顺序并不重要. 键是可缺少的:

对含有缺失特征的例子进行分类:

信息  (4)

从训练有素的预测器中提取信息:

获取输入特征的相关信息:

获取用于处理输入特征的特征提取器:

获取支持的属性列表:

内置分类器  (9)

使用 "Language" 内置分类器检测文本写入所用的语言:

使用它检测例子的语言:

获取最可能的语种的概率:

用选项 ClassPriors 将分类器限制为某几种语言:

使用 "FacebookTopic" 内置分类器检测 Facebook 帖子的主题:

对多个例子进行分类:

不被识别的主题或语言将返回 Indeterminate

使用 "CountryFlag" 内置分类器根据国旗识别国家:

使用 "NameGender" 内置分类器根据人名得到此人的可能性别:

使用 "NotablePerson" 内置分类器来决定给定图像描述的是哪位著名人物:

使用 "Sentiment" 内置分类器来推断社交媒体信息的情绪:

使用 "Profanity" 内置分类器对含有强烈语言的文本返回 True

使用 "Spam" 内置分类器根据电子邮件的内容检测其是否为垃圾邮件:

使用 "SpokenLanguage" 内置分类器,用于检测文本所使用的语言:

选项  (23)

AcceptanceThreshold  (1)

使用异常检测器创建分类器:

在评估分类器时,更改可接受临界值:

永久更改分类器中的接受的临界值:

AnomalyDetector  (1)

创建一个分类器并指定应包含异常检测器:

在非异常输入上评估分类器:

在异常输入上评估分类器:

"Probabilities" 属性不受异常检测器的影响:

暂时从分类器中删除异常检测器:

永久从分类器中删除异常检测器:

ClassPriors  (1)

在不平衡数据集上训练分类器:

训练例子 5False 被分类为 True

使用均匀先验而不是非平衡培训先验分类该范例:

类别先验也可以在训练过程中被指定:

分类器的类先验在培训后也可以被改变:

FeatureExtractor  (3)

在简单数据集上训练一个 FeatureExtractorFunction

用特征提取函数作为 Classify 的预处理步骤:

在被自定义函数和提取器方法预处理过的文字上训练分类器:

创建一个特征提取器并从文本数据集中提取特征:

在提取的特征上培训分类器:

把特征提取器连到分类器上:

分类器现在可用于初始的输入类型:

FeatureNames  (2)

训练分类器,并给出各个特征的名称:

使用关联格式预测新的例子:

仍然可以使用列表格式:

在一个具有命名特征的训练集上训练分类器,并使用 FeatureNames 设置它们的顺序:

特征按照指定排序:

对列表中的新例子进行分类:

FeatureTypes  (2)

在数据上训练分类器,其中特征为一系列 token:

Classify 错误地认为认为例子含有两种不同的名义特征:

以下分类将输出错误信息:

强制 Classify 将特征诠释为 "NominalSequence"

对新例子进行分类:

训练具有命名特征的分类器:

两个特征都被认为是数字式的:

指定特征 "gender" 应该被认为是名义式的:

IndeterminateThreshold  (1)

训练分类器时指定一个概率阈值:

获取例子的类别概率:

由于没有高于 0.9 的类别概率,不做出预测:

当分类取代训练阈值时,指定阈值:

更新分类器中的阈值:

Method  (3)

训练逻辑分类器:

训练随机森林分类器:

已知两个分类器的特征,绘制类别 "a" 的概率:

训练最近邻分类器:

求测试集的分类准确度:

在这个例子中,使用朴素贝叶斯分类器降低了分类准确度:

然而,使用朴素贝叶斯分类器缩短了分类时间:

MONK 问题由合成二值分类数据集组成,用于比较不同分类器的性能. 生成第二个 MONK 问题的数据集:

通过在 169 个实例上训练,并在整个数据集上测试,检验每个分类器的准确度:

MissingValueSynthesis  (1)

训练具有两个输入特征的分类器:

获取有缺失值的样例的类别概率:

设置缺失值合成,在给定已知值的情况下用最可能的值替换缺失变量(这是默认行为):

用以已知值为条件的随机样本替换缺失的变量:

对许多随机插补进行平均通常是最好的策略,并允许获得由插补引起的不确定性:

指定训练期间的学习方法来控制怎样学习数据的分布:

"KernelDensityEstimation" 分布来决定替补值,对有缺失值的样例进行分类:

训练时提供已有的 LearnedDistribution,在训练期间及后续的计算中用来对缺失值进行插补:

指定已有的 LearnedDistribution 针对单次计算合成缺失值:

通过在训练中传递关联来控制学习方法和运算策略:

RecalibrationFunction  (1)

加载 MNIST 数据集:

不进行任何重新校准,训练一个随机森林分类器:

可视化测试集上的校准曲线:

执行重新校准的情况下,训练一个随机森林分类器:

可视化测试集上的校准曲线:

PerformanceGoal  (1)

训练分类器,重点放在训练速度:

计算测试集上的分类准确度:

默认情况下,在分类速度和性能之间进行折衷:

对于相同的数据,训练分类器,而重点在于训练速度和内存:

分类器使用的内存较少,但同时准确度降低:

TargetDevice  (1)

在系统默认的 GPU 上使用神经网络培训分类器并查看 AbsoluteTiming

比较之前的结果和使用默认 CPU 计算所得的结果:

TimeGoal  (2)

培训分类器并指定全部培训时间为 5 秒:

加载 "Mushroom" 数据集:

培训分类器,指定目标培训时间为 0.1 秒:

分类器达到 90% 的精度:

培训一个分类器,指定目标培训时间为 5 秒:

分类器达到 99% 的精度:

TrainingProgressReporting  (1)

加载 "UCILetter" 数据集:

在分类器培训时,交互式显示培训进展:

交互式显示培训进展,没有图:

培训时,周期性打印培训进展:

显示简单的进展指示:

不报告进展:

UtilityFunction  (1)

训练分类器:

默认情况下,最可能的类被预测:

这对应于下面的效用规范:

训练分类器,对把类别为 "yes" 但错误归类为 "no" 的例子进行惩罚:

尽管概率没有改变,但分类器的结果不同:

当分类取代训练所指定的效用函数时,指定效用函数:

更新分类器中实用函数的值:

ValidationSet  (1)

在费雪鸢尾花卉数据集上训练逻辑递归分类器:

获得经训练的分类器的 L2 正规化系数:

指定验证集:

选择不同的 L2 正规化系数:

应用  (10)

泰坦尼克号生还  (2)

加载 "Titanic" 数据集,该数据集包含泰坦尼克号乘客的年龄、性别、船票等级和生还者名单:

可视化数据集样本:

在该数据集上训练逻辑分类器:

计算一位乘坐三等舱的 10 岁女孩的生存概率:

绘制 "class""sex" 组合的存活概率与年龄的函数关系图:

训练分类器来预测一个人在泰坦尼克号沉没事件中生还或死亡的几率:

计算乘客死亡的先验几率:

用分类器预测人员死亡的概率:

获取每个特征如何倍增模型预测的类别几率的解释:

将模型对特征影响的解释与基本概率进行比较:

费雪鸢尾花卉  (3)

在费雪鸢尾花卉数据集上训练分类器,来预测鸢尾花的属种:

根据一列特征预测鸢尾花的属种:

在测试集上检验分类器的准确度:

在测试集上生成分类器的混淆矩阵:

训练分类器,将电影审查片段分类为 "positive""negative"

对一个看不见的电影审查片段进行分类:

在测试集上检验分类器的准确度:

导入莎士比亚、王尔德和雨果的著作例子,来训练分类器:

根据这些文字来生成作家分类器:

求新的文字出自哪位作家:

图像识别  (3)

根据 MNIST 手写数字数据库中的 100 个范例训练数字识别器:

使用分类器识别未见过的数字:

分析错误分类范例的概率:

根据 32 幅神话生物图像训练分类器:

使用分类器识别未知生物:

训练分类器,识别白天和夜晚:

在实例中进行测试:

特征说明  (1)

导入手写数字图像并选择 3、5 和 8:

可视化图像:

将图像转换为像素值,并将其分类:

训练分类器,通过单个像素值识别数字:

学习简单的数据分布,(为了提升速度)将每个像素视为独立:

使用 "SHAPValues" 属性估算范例中每个像素对预测类别的影响:

利用 Log几率乘数SHAP 值转换为以 0 为中心的刻度:

用像素值乘以暗度,查看每个像素的影响:

可视化像素如何增加(红色)或减少(蓝色)模型在数字为 0 或 6 时的置信度:

欺诈检测  (1)

训练分类器,根据一组特征标记可疑交易:

仅根据交易金额绘制欺诈概率图:

根据银行卡类型和交易类型显示欺诈概率:

可能存在的问题  (1)

RandomSeeding 选项并不总是保证结果的可重复性:

"Titanic" 数据集上训练多个训练器:

在测试集上测试时比较结果:

巧妙范例  (2)

对从正态分布取样的集群进行定义并绘图:

混合颜色以反映每个方法不同类别的概率密度:

在该盒框中绘图,检验在数据集 ExampleData[{"MachineLearning","MNIST"}] 训练的逻辑分类器:

Wolfram Research (2014),Classify,Wolfram 语言函数,https://reference.wolfram.com/language/ref/Classify.html (更新于 2024 年).

文本

Wolfram Research (2014),Classify,Wolfram 语言函数,https://reference.wolfram.com/language/ref/Classify.html (更新于 2024 年).

CMS

Wolfram 语言. 2014. "Classify." Wolfram 语言与系统参考资料中心. Wolfram Research. 最新版本 2024. https://reference.wolfram.com/language/ref/Classify.html.

APA

Wolfram 语言. (2014). Classify. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/Classify.html 年

BibTeX

@misc{reference.wolfram_2024_classify, author="Wolfram Research", title="{Classify}", year="2024", howpublished="\url{https://reference.wolfram.com/language/ref/Classify.html}", note=[Accessed: 22-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_classify, organization={Wolfram Research}, title={Classify}, year={2024}, url={https://reference.wolfram.com/language/ref/Classify.html}, note=[Accessed: 22-November-2024 ]}