当前位置：首页 > article >正文

Training for Computer Use

article 2025/2/19 18:05:40

核心事件：多家科技公司推出能操控计算机的智能体，字节跳动和清华大学团队引入UI - TARS模型，展示了训练模型实现计算机操控能力的新成果。

UI - TARS模型

基本信息：是视觉 - 语言模型Qwen2 - VL的微调版本，能基于推理决定在桌面和移动应用中的操作，模型权重遵循Apache 2.0许可，可免费下载使用。
训练过程
- 添加思维链：在训练集中，通过提示未指明的视觉 - 语言模型，结合先前信息解释当前操作来添加思维链。因解释可能不佳，故对同一截图生成多个思维链与操作，选正确的用于训练。
- 微调训练：让UI - TARS依据指令、已有截图、思维链和操作生成新思维链与操作，进行微调。
- 虚拟运行与筛选：在虚拟机中运行UI - TARS生成大量数据，用规则过滤错误内容，自动打分并人工审核，对剩余数据微调，重复生成、筛选和微调。
- 错误修正与再训练：人工标注修正错误的思维链和操作示例，用于模型再训练，使其避免或修复错误。
- 偏好优化：用直接偏好优化（DPO）让模型倾向生成修正后的正确示例。
- 推理运行：推理时，UI - TARS根据截图、指令和潜在操作生成思维链与操作，执行操作后接收新截图，循环生成新思维链与操作，综合考虑所有信息。