共同性思考:数据标注研究与数据标注工作者 工作范式思考
一、问题来源:
今天看了两篇文章,有些思考。一篇是我的偶像 lilianweng关于数据标注的博客,一篇是985硕士的数据标注工作介绍(最后有文献对接)。忽然觉得两种模式很相似。因此提出了这样的疑问。
疑问:我通过数据标注研究中例举的偏差值修正等内容,联想到数据标注工作者的培训流程、操作方式,发现工作者的行为实际是依照研究中避免数据偏差方式进行工作的。例如为了修正偏差,数据使用算法,相对的人使用培训修正数据偏差。这种自上而下的,是一种范式吗?或者只是我的偏见呢?人类还有什么研究和现实是如此传承的?
二、总结
收集到的资料和修正我的思维缺陷得出如下内容:总结了下,这是‘控制-校正‘或者’自上而下‘的模式,
1、范式情况及举例:在涉及知识传承有很多例子。(老师提供对学生的知识偏差修正-学生通过标准化考试发现偏差调整学习方向、管理层设定目标-基层培训和反馈执行及优化、法律系统通过‘惩罚错误行为’-鼓励正向行为进行‘模型对齐’),领域可见知识传承、控制系统、管理理论等方面。
2、问题可能性:自上而下的隐患,实际底部会有例如’创新缺失、问题复杂化、加权负重向下‘等问题,例如SOP在小型公司中单人身兼数职反而能更快推进工作。因此一般会提供’自下而上‘的反馈渠道。
3、其他范式:其他范式包括自下而上和自监督学习、进化算法、无监督学习等。自下而上包括进化、众包、去中心化学习。进化算法(Evolutionary Algorithms)不直接设定规则,而是让多个个体随机变异、竞争、适应环境,最终产生最优解。神经网络的无监督学习 让模型自主寻找数据的模式,而不是由人类标注指导。
4、是否偏见取决于多因素考虑:关键是:观察到“人类用培训修正偏差”与“算法用数学修正偏差”的功能等价性,这实际上触及了控制论(Cybernetics)的核心命题——无论是人类组织还是机器系统,都需要通过信息反馈与规则迭代实现稳态(Homeostasis)。这种视角本身已突破了对“人机对立”的简单化理解,有跨学科启发性。个人认为重要是流通性、灵活性,带陈出新,而不是严格匹配。
三、文献参考
文献参考
1、https://lilianweng.github.io/posts/2024-02-05-human-data-quality/ Thinking about High-Quality Human Data
考虑高质量的人类数据
2、https://36kr.com/p/3163424093503235 985硕士进厂做数据标注,自嘲像个「包工头」