当前位置: 首页 > article >正文

共同性思考:数据标注研究与数据标注工作者 工作范式思考

一、问题来源:
今天看了两篇文章,有些思考。一篇是我的偶像 lilianweng关于数据标注的博客,一篇是985硕士的数据标注工作介绍(最后有文献对接)。忽然觉得两种模式很相似。因此提出了这样的疑问。

在这里插入图片描述

疑问:我通过数据标注研究中例举的偏差值修正等内容,联想到数据标注工作者的培训流程、操作方式,发现工作者的行为实际是依照研究中避免数据偏差方式进行工作的。例如为了修正偏差,数据使用算法,相对的人使用培训修正数据偏差。这种自上而下的,是一种范式吗?或者只是我的偏见呢?人类还有什么研究和现实是如此传承的?

二、总结
收集到的资料和修正我的思维缺陷得出如下内容:总结了下,这是‘控制-校正‘或者’自上而下‘的模式,
1、范式情况及举例:在涉及知识传承有很多例子。(老师提供对学生的知识偏差修正-学生通过标准化考试发现偏差调整学习方向、管理层设定目标-基层培训和反馈执行及优化、法律系统通过‘惩罚错误行为’-鼓励正向行为进行‘模型对齐’),领域可见知识传承、控制系统、管理理论等方面。

2、问题可能性:自上而下的隐患,实际底部会有例如’创新缺失、问题复杂化、加权负重向下‘等问题,例如SOP在小型公司中单人身兼数职反而能更快推进工作。因此一般会提供’自下而上‘的反馈渠道。

3、其他范式:其他范式包括自下而上和自监督学习、进化算法、无监督学习等。自下而上包括进化、众包、去中心化学习。进化算法(Evolutionary Algorithms)不直接设定规则,而是让多个个体随机变异、竞争、适应环境,最终产生最优解。神经网络的无监督学习 让模型自主寻找数据的模式,而不是由人类标注指导。

4、是否偏见取决于多因素考虑:关键是:观察到“人类用培训修正偏差”与“算法用数学修正偏差”的功能等价性,这实际上触及了控制论(Cybernetics)的核心命题——无论是人类组织还是机器系统,都需要通过信息反馈与规则迭代实现稳态(Homeostasis)。这种视角本身已突破了对“人机对立”的简单化理解,有跨学科启发性。个人认为重要是流通性、灵活性,带陈出新,而不是严格匹配。

三、文献参考
文献参考
1、https://lilianweng.github.io/posts/2024-02-05-human-data-quality/ Thinking about High-Quality Human Data
考虑高质量的人类数据
2、https://36kr.com/p/3163424093503235 985硕士进厂做数据标注,自嘲像个「包工头」


http://www.kler.cn/a/555430.html

相关文章:

  • Ubuntu22.04 - gflags的安装和使用
  • 七星棋牌全开源修复版源码解析:6端兼容,200种玩法全面支持
  • Linux 性能调优简单指南
  • Java+SpringBoot+Vue+数据可视化的综合健身管理平台(程序+论文+讲解+安装+调试+售后)
  • ELK 日志收集框架搭建
  • docker从容器中cp到本地、cp本地到容器
  • PHP 数据库操作:以 MySQL 为例
  • 使用Python进行PDF隐私信息检测
  • 美团MTSQL特性解析:技术深度与应用广度的完美结合
  • 【FAQ】HarmonyOS SDK 闭源开放能力 —Live View Kit (1)
  • 【Linux】线程概念及控制
  • 体验用ai做了个python小游戏
  • SVN把英文换中文
  • JSON格式,C语言自己实现,以及直接调用库函数(一)
  • Git如何将一个分支的内容同步到另一个分支
  • C# SpinLock 类 使用详解
  • 知识库管理系统驱动企业知识体系重构与智能协作路径解析
  • 大数据治理之solr的体现
  • 03.Docker 命令帮助
  • 鸿蒙-状态管理V1