数据标注

25 Jul, 2025

半监督学习

半监督学习中，我们有少量带标签的数据和大量不带标签的数据。
为了标注这些数据，做了三个美好的假设。

基本假设

流形假设 (Manifold Hypothesis)

我们所观测到的高维数据（例如一张图片的成千上万个像素点），实际上是由一个远低于其维度的低维流形Manifold嵌入在高维空间中形成的。处在同一个流形上的数据点，具有相似的性质和相同的标签。可以想象成纸折成团。
不要被高维的表象迷惑，去学习数据内在的低维结构。

聚类假设 (Cluster Hypothesis)

数据在空间中会形成一个个簇（Cluster）。属于同一个簇的数据点，更有可能拥有相同的标签。

连续性/平滑性假设 (Continuity/Smoothness Hypothesis)

相似的输入，应该有相似的输出，具体来说，如果两个数据点在输入空间中距离很近，那么它们对应的标签也应该大概率是相同的。

问题

问题在于数据并不一定满足这些假设，而在类似“自训练”（Self-Training）的方法中，模型会对无标签数据预测产生一个“伪标签”（Pseudo-Label）。如果模型对某个无标签样本做出了高置信度的错误预测，它会把这个错误的“伪标签”当作真实标签来进一步训练自己，越来越偏移正确的方向。

主动学习

面对大量无标签数据，它会主动挑选出最不确定的样本，然后提交给人类专家进行标注。标注完成后，再用这些高质量的新标签来训练自己。

挑选方法

不确定性采样

最低置信度 (Least Confidence)：选择模型预测概率最低的那个样本。

基于查询委员会的采样 (Query-By-Committee)

同时训练多个不同的模型对同一个无标签样本进行预测。那些让委员会成员分歧最大的样本被优先送去标注。

启发式(Heuristic)

指的是基于经验、直觉或规则的一种“估算”或“捷径”
对评论或邮件贴标签时，可以通过一些类似广告或欺诈的词来判断是不是spam，或者是一些正则来匹配需要的，如果有则是一类标签，如果没有则归于待贴标签。

Share this post on:

Attetion is all you need