Skip to content
Go back

数据标注

Edit page

半监督学习

  • 半监督学习中,我们有少量带标签的数据和大量不带标签的数据。
  • 为了标注这些数据,做了三个美好的假设。

基本假设

流形假设 (Manifold Hypothesis)

  • 我们所观测到的高维数据(例如一张图片的成千上万个像素点),实际上是由一个远低于其维度的低维流形Manifold嵌入在高维空间中形成的。处在同一个流形上的数据点,具有相似的性质和相同的标签。可以想象成纸折成团。
  • 不要被高维的表象迷惑,去学习数据内在的低维结构。

聚类假设 (Cluster Hypothesis)

  • 数据在空间中会形成一个个簇(Cluster)。属于同一个簇的数据点,更有可能拥有相同的标签。

连续性/平滑性假设 (Continuity/Smoothness Hypothesis)

  • 相似的输入,应该有相似的输出,具体来说,如果两个数据点在输入空间中距离很近,那么它们对应的标签也应该大概率是相同的。

问题

  • 问题在于数据并不一定满足这些假设,而在类似“自训练”(Self-Training)的方法中,模型会对无标签数据预测产生一个“伪标签”(Pseudo-Label)。如果模型对某个无标签样本做出了高置信度的错误预测,它会把这个错误的“伪标签”当作真实标签来进一步训练自己,越来越偏移正确的方向。

主动学习

  • 面对大量无标签数据,它会主动挑选出最不确定的样本,然后提交给人类专家进行标注。标注完成后,再用这些高质量的新标签来训练自己。

挑选方法

不确定性采样

  • 最低置信度 (Least Confidence):选择模型预测概率最低的那个样本。

基于查询委员会的采样 (Query-By-Committee)

  • 同时训练多个不同的模型对同一个无标签样本进行预测。那些让委员会成员分歧最大的样本被优先送去标注。

启发式(Heuristic)

  • 指的是基于经验、直觉或规则的一种“估算”或“捷径”
  • 对评论或邮件贴标签时,可以通过一些类似广告或欺诈的词来判断是不是spam,或者是一些正则来匹配需要的,如果有则是一类标签,如果没有则归于待贴标签。

Edit page