百度世界2024精选公开课:基于地图智能体的导航出行AI应用创新实践
11月12日,“百度世界2024”在上海世博中心举行。百度创始人、董事长兼首席执行官李彦宏发表了主题为《应用来了》的演讲。
百度地图也为大家带来了干货满满、精彩纷呈的智能体公开课,由百度地图开放平台技术架构师江畅分享《地图智能体:导航出行领域的AI应用实践指南》。
地图智能体在技术上是怎么实现的?
01 技术实现路径
百度地图智能体的发布得益于长期技术投资所带来的技术积累红利,依托国内领先的大模型文心一言,拥有学习海量出行信息,洞悉用户交通偏好,并且与业界美团、携程等主流应用广泛合作,内容供给极致丰富。
具体而言,百度地图智能体在理解和规划上,实现了高度口语化用户输入的意图识别,具备多轮理解及反思修复能力,支持模型的长期和短期记忆,包括用户画像和会话信息,以更好地理解用户需求。同时,百度地图不断构建基于海量数据的知识库和工具集合,以支持需求理解和执行动作。
02 技术架构两大关键环节
一、意图理解
首先是模型选择。永恒的话题是模型尺寸和推理性能的权衡,大尺寸模型,效果好,但推理速度慢,成本也贵,更小尺寸的模型,可以扛住更大的流量,但效果可能没那么好。实际工程架构上,采用混合模型,简单的输入,尽量让小尺寸的模型承接,非常复杂的输入,才会走到更大的模型,来平衡成本和效果。
其次是原子化技能。把百度地图的能力,尽可能地拆解成一个个原子化的API,在意图理解的阶段通过LLM进行拆解和映射,类似大家常说的,把大象装进冰箱分成三步走,把复杂的用户需求分步骤的拆解,让不同技能来承接,最终呈现给用户一个好的结果。
最后是多轮能力。多轮推理的模块,基于对环境的感知和长短期的记忆内容,来实现诸如“帮我找一个附近游玩的地方”,找到故宫后,直接说“那就导航去这儿吧”这样的交互对话能力。
二、知识问答
百度地图把各种数据都做了面向智能体友好的规格处理,这些知识现在可以被大模型所理解,并归纳总结给出合理的答案。
具体来说,当用户问一个问询类的问题后,首先通过问题的相关性检索,从地图知识库里召回关键要素,通常是用户问题相关的多个不同主题的信息,比如营业时间、地点特色等。当抽取出这些多主题信息后,结合原始的问题,利用大模型的强大归纳总结能力,进行最后的归纳、总结,并给出准确的答案。
地图智能体有哪些核心能力?
01 出行指令一张图,听得懂, 可执行
支持基础60+类语音指令,导航行中可见即可说,所有功能皆可语音支持;支持10+种路线定制能力,多途经点路线、定制化路线(描述路名/道路特征的路线)、多意图路线随意组合......只要能描述的路线,都可以规划展示。
02 出行信息一张图, 路上你关心的全都有
支持服务区/拥堵等12类信息问询,也可以做到问山问水等偏兴趣探索的问询需求。
03 旅途好伴侣, 多模态交互, 让出行更有趣
只要给出你想去的地方+游玩时间,即可一键生成出游攻略行程规划;加载文心大模型,所有知识皆可问询,满足泛出行场景的知识诉求。
地图智能体有哪些使用场景?
01 行前——复杂泛搜以及制定出游攻略
具备针对指定POI的多轮问询能力,例如查找周边充电站后,可继续追问是否支持快充,以及是否24小时营业等信息;根据不同类型多个筛选条件,对周边或指定区域进行检索并推荐结果;通过口语化问询,如查询行程时间、距离、拥堵情况,并根据路线偏好进行推荐。
同时也新上线了行程规划的能力,比如“做一个北京三日游的攻略”,只要给出想去的地方+游玩时间,即可一键生成出游攻略,包括出游地点、路线、时间等相关信息,还附带海量笔记、消费入口供用户参考和调整规划行程。
02 行中——语音指令、路线定制和行中搜点
在基础功能指令上,智能体行中可以对车道级导航开关、播报模式、限行、服务区等语言指令做出响应。
在特色功能上,智能体支持对路线的定制化调整,包括多途径点/走&不走某条路的路线/大路多的路线/红绿灯少的路线/曾经走过的路线/转弯数少路线等。行中搜点——沿途搜、周边搜、以点搜点能力同样也是具备的。
03 行中——信息问询、知识问询
支持导航过程中的一系列诉求,比如服务区/拥堵&动态事件/出入口&收费站/限速/道路/起终点&途经点&ETA/城市位置&天气/电子眼/红绿灯/停车场/诱导方位指引/交规通行性等地图信息随意问询,天级别迭代;还能接受途中问旁边山、水、建筑信息问询,景点的历史典故、游览词等。也包括对POI点的营业时间、位置、历史信息的一系列query。
04 泛地图场景
百度地图通过不断完善地图知识库,基于文心大模型,对地图知识做细化分类,支持开发者、用户对各类千奇百怪、突破想象力的问题,都能给出合理的答案。
开发者如何接入地图智能体?
01 APl接入方案
通过云端交互方式,基于大模型语义理解的API,返回检索、基础算路、未来时问规划等结果。能够帮助企业快速灵活的搭建【出行AI Agent】。
02 SDK接入方案
端上集成大模型语义理解技术的SDK,为企业提供一站式解决方案。接入成本低、开发门槛低,功能升级涉及APP发版。
03 两个技术方案对比
相对而言,SDK接入方案对开发者更友好,开发门槛低,但需要发版,同时地图智能体SDK的能力也在不断扩展中;而API接入方案不需要发版,但开发门槛更高一些,需要自行实现端上的产品形态。建议开发者按需选择。
正如百度创始人、董事长兼首席执行官李彦宏在百度世界2024大会上提出的,“智能体是AI应用的最主流形态,即将迎来它的爆发点。智能体的门槛低、天花板高,既能让人人都上手,又能做出复杂强大的应用。”
百度地图期待与更多开发者朋友携手,充分释放地图智能体的能力,探索AI应用的无限新可能。