示例加权的神经网络培训
示例加权是神经网络训练的常见变体,其中训练数据中的不同示例具有不同的重要性. 简而言之,这是通过将每个示例的损失乘以与本示例相关的权重(根据 NetTrain 执行的优化过程的更高或更低重要性)来实现的.
- 正确分类某些示例可能比分类其他示例更重要. 想象一下用于欺诈检测的二元分类器:假阳性可能是良性的,但假阴性是灾难性的. 在培训期间解决这个问题的一个方法是在正面例子上比在负面例子上放置更大的示例权重.
回归示例的权重
我们训练一个没有示例加权的简单线性回归模型,作为我们可以比较示例加权训练的基线. 请注意,我们使用MeanSquaredLossLayer 作为损失函数;这实际上已经是默认的了,但是稍后我们必须明确地构建一个训练网络,所以我们现在突出显示损失函数的选择.
使用 NetTrain 培训模型:
接下来,我们执行加权训练. 我们会创建两个数据集,分别强调原点左右的范例. 我们构建一个培训网络,将先前使用的均方损失与训练权重相乘. 这种乘法会使 NetTrain 优先为具有更高权重的示例进行优化.
Create weighted datasets using the Exp function to bias either the left or the right side of the input space:
分类的示例加权
创建适于 NetTrain 的培训数据:
我们训练一个没有示例加权的简单逻辑回归模型,作为我们可以比较示例加权训练的基线. 请注意,我们使用 CrossEntropyLossLayer 作为损失函数; 这实际上已经是默认了,但稍后我们必须明确构建一个培训网,所以我们现在突出显示它.
接下来,我们执行加权训练. 这就要求训练数据强调属于第一个聚类的例子,并构建一个训练网络,将先前使用的交叉熵损失与训练权重相乘. 乘法会使 NetTrain 优先为具有更高权重的示例进行优化,在这种情况下,示例来自第一个聚类.
重新附加 "Class" 解码器,它在回归网络嵌入培训网络时丢失:
使用 NetMeasurements 计算召回和混淆矩阵图: