当前位置：首页 > article >正文

共同性思考：数据标注研究与数据标注工作者工作范式思考

article 2025/2/22 1:32:39

一、问题来源：
今天看了两篇文章，有些思考。一篇是我的偶像 lilianweng关于数据标注的博客，一篇是985硕士的数据标注工作介绍（最后有文献对接）。忽然觉得两种模式很相似。因此提出了这样的疑问。

在这里插入图片描述

疑问：我通过数据标注研究中例举的偏差值修正等内容，联想到数据标注工作者的培训流程、操作方式，发现工作者的行为实际是依照研究中避免数据偏差方式进行工作的。例如为了修正偏差，数据使用算法，相对的人使用培训修正数据偏差。这种自上而下的，是一种范式吗？或者只是我的偏见呢？人类还有什么研究和现实是如此传承的？

二、总结
收集到的资料和修正我的思维缺陷得出如下内容：总结了下，这是‘控制-校正‘或者’自上而下‘的模式，
1、范式情况及举例：在涉及知识传承有很多例子。（老师提供对学生的知识偏差修正-学生通过标准化考试发现偏差调整学习方向、管理层设定目标-基层培训和反馈执行及优化、法律系统通过‘惩罚错误行为’-鼓励正向行为进行‘模型对齐’），领域可见知识传承、控制系统、管理理论等方面。

2、问题可能性：自上而下的隐患，实际底部会有例如’创新缺失、问题复杂化、加权负重向下‘等问题，例如SOP在小型公司中单人身兼数职反而能更快推进工作。因此一般会提供’自下而上‘的反馈渠道。

3、其他范式：其他范式包括自下而上和自监督学习、进化算法、无监督学习等。自下而上包括进化、众包、去中心化学习。进化算法（Evolutionary Algorithms）不直接设定规则，而是让多个个体随机变异、竞争、适应环境，最终产生最优解。神经网络的无监督学习让模型自主寻找数据的模式，而不是由人类标注指导。

4、是否偏见取决于多因素考虑：关键是：观察到“人类用培训修正偏差”与“算法用数学修正偏差”的功能等价性，这实际上触及了控制论（Cybernetics）的核心命题——无论是人类组织还是机器系统，都需要通过信息反馈与规则迭代实现稳态（Homeostasis）。这种视角本身已突破了对“人机对立”的简单化理解，有跨学科启发性。个人认为重要是流通性、灵活性，带陈出新，而不是严格匹配。

三、文献参考
文献参考
1、https://lilianweng.github.io/posts/2024-02-05-human-data-quality/ Thinking about High-Quality Human Data
考虑高质量的人类数据
2、https://36kr.com/p/3163424093503235 985硕士进厂做数据标注，自嘲像个「包工头」

查看全文

http://www.kler.cn/a/555430.html