当前位置: 首页 > article >正文

Training for Computer Use

Training for Computer Use

核心事件:多家科技公司推出能操控计算机的智能体,字节跳动和清华大学团队引入UI - TARS模型,展示了训练模型实现计算机操控能力的新成果。

UI - TARS模型

  • 基本信息:是视觉 - 语言模型Qwen2 - VL的微调版本,能基于推理决定在桌面和移动应用中的操作,模型权重遵循Apache 2.0许可,可免费下载使用。

  • 训练过程

    • 添加思维链:在训练集中,通过提示未指明的视觉 - 语言模型,结合先前信息解释当前操作来添加思维链。因解释可能不佳,故对同一截图生成多个思维链与操作,选正确的用于训练。

    • 微调训练:让UI - TARS依据指令、已有截图、思维链和操作生成新思维链与操作,进行微调。

    • 虚拟运行与筛选:在虚拟机中运行UI - TARS生成大量数据,用规则过滤错误内容,自动打分并人工审核,对剩余数据微调,重复生成、筛选和微调。

    • 错误修正与再训练:人工标注修正错误的思维链和操作示例,用于模型再训练,使其避免或修复错误。

    • 偏好优化:用直接偏好优化(DPO)让模型倾向生成修正后的正确示例。

    • 推理运行:推理时,UI - TARS根据截图、指令和潜在操作生成思维链与操作,执行操作后接收新截图,循环生成新思维链与操作,综合考虑所有信息。

新闻背景:2022年初Adept宣扬计算机操控能力,OmniParser Aguvis跟进推出应用。2024年10月Anthropic宣布Claude 3.5 Sonnet具备此能力引发热潮,OpenAI也推出Operator涉足该领域。

实验结果:在11项基准测试中,UI - TARS表现出色,在OSWorld测试中,完成任务的成功率高于Claude 3.5 Sonnet、GPT - 4o(搭配Aguvis框架)以及Aguvis原生模型。

重要意义:训练模型做出正确操作可保证其良好表现,训练其修正错误能让它应对现实中的意外问题。

未来展望:计算机操作可在虚拟机模拟,能自动生成大量训练数据,有望推动大语言模型在计算机操控能力上快速发展。


http://www.kler.cn/a/546214.html

相关文章:

  • 大脑网络与智力:基于图神经网络的静息态fMRI数据分析方法|文献速递-医学影像人工智能进展
  • 计算机视觉-局部特征
  • 嵌入式知识点总结 网络编程 专题提升(一)-TCP/UDP
  • 微服技术栈之Spring could gateway
  • C++基础 | 线程`std::thread`
  • Python爬虫-猫眼电影的影院数据
  • 共用poetry和conda的方法
  • New Game--(单调队列)
  • 电商小程序(源码+文档+部署+讲解)
  • 利用ffplay播放udp组播视频流
  • 汽车 OTA 升级:提升下载与升级速度,优化用户体验
  • ASP.NET Core SixLabors.ImageSharp 位图图像创建和下载
  • 支持直接升级到21c的 Oracle 数据库版本
  • 基于SSM+uniapp的数学辅导小程序+LW示例参考
  • Redis 数据类型 Zset 有序集合
  • Java进阶:Docker
  • Ceph集群搭建2025(squid版)
  • 基于JavaSpringmvc+myabtis+html的鲜花商城系统设计和实现
  • Java中的分布式(概念说明)
  • Redis 内存回收机制