AutoGLM的一小步,人机交互进化的一大步
55年前,左脚刚刚踏上月球的阿姆斯特朗,说了一句简单的话:“这是个人的一小步,却是人类的一大步。”
过去几十年里,很多人曾引用过这句话,用来定格某个历史性时刻。今天,我们想把这句话套用到智谱的AutoGLM上。
11月29日的智谱Agent OpenDay上,对外公测或内测了三个产品——浏览器插件AutoGLM Web、电脑智能体大模型GLM-PC,以及一个多月前“剧透”过的AutoGLM,也是智谱第一个产品化的智能体Agent。
短短一个月的时间,AutoGLM的能力不再局限于点外卖、朋友圈点赞,带来了多个新进展:
AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨App执行任务;
AutoGLM开启“全自动”上网新体验,支持等数十个网站的无人驾驶;
像人一样操作计算机的GLM-PC启动内测,基于视觉多模态模型实现通用Agent的技术探索。
同时AutoGLM 启动了大规模内测,将尽快上线成为面向 C 端用户的产品,并宣布启动“10个亿级 APP 免费 Auto 升级”的计划。
01 AutoGLM可以做什么?
看到这里,可能不少人会疑问:什么是AutoGLM?
单从名字上看,很容易让人联想到自动驾驶,毕竟几乎每辆汽车的中控区都有一个AUTO按钮,表示该功能或设置为自动模式。
顾名思义,AutoGLM的场景正是用AI控制手机,只需要一句语音指令,AutoGLM即可模拟人类操作手机来完整任务。AI从只有对话功能的Chatbot,正在进化为“有手、有脑、有眼睛”的自主Agent。
为了方便大家理解,我们提前做了一波测试。
对于不方便看视频的小伙伴,这里大致说一下我们测试的四个场景:分别是到小红书查找周末出行攻略、给小红书博主的最新内容评论、到拼多多上买一箱涌泉蜜桔、订一张从宁波到北京的机票。
直接说结果,AutoGLM都准确完成了工作,几个涉及到购买的场景,只需要我们最后付款即可。稍有不足的是,遇到弹窗或需要人工确认的环节,目前AutoGLM还无法处理,需要人为操作后才能继续后面的流程。
由于时间的原因,我们的测试没有太深入,对于AutoGLM的能力升级,可以参考智谱Agent OpenDay上传递出的信息:
超长任务:理解超长指令,执行超长任务。例如,在采购火锅食材的例子中,AutoGLM 自主执行了 54步无打断操作。并且,在这种多步、循环任务中,AutoGLM 的速度表现超过人手动操作。
跨 App :AutoGLM 支持跨 App 来执行任务。用户将习惯于 AI 自动处理,而不是在多个 APP 间来回切换。由于目前 AutoGLM 形态更像是用户和应用间的APP执行的调度层,因此跨 App 能力是里面非常关键的一步。
短口令:AutoGLM 能够支持长任务的自定义短语。今天,你不用再给AutoGLM说:“帮我买一杯瑞幸咖啡,生椰拿铁,五道口店,大杯、热、微糖” 这类超长指令,只需要说“点咖啡”。
随便模式:我们都会陷入选择恐惧,AutoGLM 今天可以主动帮你做出决策。随便模式下所有步骤都让 AI 决策,带来有抽盲盒式的惊喜。想不想尝尝AI为你点的咖啡口味?
以此类推,AutoGLM Web和GLM-PC的能力和AutoGLM相似,面向的场景分别是浏览器和电脑端,并且有一些智能手机上做不到的功能。
比如AutoGLM Web能够理解用户的指令,自动为用户在网页上站内检索、多链接总结,甚至进一步实现生成arXiv日报,搭建Github仓库,在微博超话签到等个性化功能。
再比如远程手机发指令,GLM-PC可以自主完成电脑操作,可以设定一个未来时间,在开机状态下定时执行任务。
想象一下:即使你在摸鱼、喝咖啡或者上厕所,你的电脑依然在工作,丝毫不会影响工作的进度。
02 人机交互进入AI时代
当然,让我们印象深刻的,并非是AutoGLM所实现的能力,而是对人机交互模式的巨大冲击,基于自然语言的人机交互已经是现在进行时。
小时候上“微机课”,老师经常挂在嘴边的一句话就是:“你们要学会用电脑。”
之所以会出现一个“学”字,因为操作电脑必须要学会使用键盘和鼠标、必须学会输入法、必须要去适应每一个应用的复杂界面,想要编写程序还需要从0开始学一门编程语言。尽管这些工具在不断进步,人与机器的协作依然是一件高门槛的事,特别是一些专业软件,想要完成某个任务需要很多个步骤,过程中充斥着机械性的重复劳动。
AutoGLM目前的功能还很基础,却拉开了人机交互进化的序幕:借助于大模型的强大能力,只需要一句话,AI就能自动帮我们处理复杂的任务,人机协作的门槛进一步降低。
不再是人被动适应机器,而是让机器理解人类。
试图打破人机交互僵局的,不只是国内的智谱,苹果的Apple lnteligence、Anthropic的Computer Use、谷歌的Jarvis,以及OpenAI即将发布的Operator,都在朝同样的方向进行创新。
问题来了,大模型距离重塑人机交互范式还有多远呢?
自动驾驶领域有L1—L5的能力划分,OpenAI、智谱等企业也提出了类似的技术阶段:L1是语言能力、L2是逻辑能力(多模态能力)、L3是使用工具的能力、L4是自我学习能力,最终做到像人一样理解界面、规划任务、使用工具、完成任务。
“坏消息”在于,目前大模型能力还处于初级阶段。按照智谱 CEO 张鹏的说法,“Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索。”
“好消息”则是,在智谱Agent OpenDay上,荣耀、华硕、小鹏、高通、英特尔等,分别从不同的场景出发,分享了他们对智能终端的实践及展望。
也就是说,大模型重塑人机交互范式,绝非是大模型企业的愿景,而是包含终端厂商、芯片厂商在内的产业上下游的共识。随着AutoGLM能力的提升,将能调用越来越多的应用,适配越来越多的系统,实现越来越复杂的连贯自主操作。
另一个不应该忽略的信息是:端侧算力正在持续提升,智谱顺势推出了为AI原生设备适配的模型和端云同源的协同架构,意味着Agent不仅将在应用上实现用户体验变革,还能将推广到各类智能设备上,手机+AI、PC+AI、汽车+AI等将不断涌现。
03 写在最后
在大模型的概念刚走红时,就有人将其比作是“操作系统”。
至少从AutoGLM的表现来看,即便只是在用户和应用之间增加一个智能调度层,已经有了GLM-OS(以大模型为中心的通用计算系统)的雏形。倘若能够进一步实现原生的人与机器交互,将从根本上改变人机交互模式,所有人都可以用自然语言操作手机、电脑、汽车、眼镜等等。
值得期待的是,著名调研机构Gartner已经将agentic AI列为2025年十大技术趋势之一,预测2028年至少有 15%的日常工作决策将由agentic AI自主完成。