当前位置：首页 > article >正文

比赛调研资料

article 2024/12/25 3:34:52

视觉文旅

在这里插入图片描述

现有的模型

在这里插入图片描述

数据

在这里插入图片描述

功能

精准营销
基于地理推荐能力
乡村圈分析能力
都市圈分析能力

产品体系

在这里插入图片描述

三大数据平台

在这里插入图片描述

携程问道

旅游服务框架：前置（推荐种草），途中（客服），售后（？）

行程规划

在这里插入图片描述

携程问道在训练期间筛选了200亿个高质量非结构性旅游数据，再结合携程现有精确的实时数据进行自研垂练，成为百亿参数规模的行业垂直大模型。

大模型推荐

“携程问道”大模型目前已经具备了“前置推荐”和“智能查询”两项能力：
首先，在用户需求尚未确定时，携程问道能为其提供出行推荐服务；
如若用户已有相对明确的需求，问道也能提供智能查询结果。

“旅游重在体验，任何一个5%的行程规划失误都会造成100%的旅游问题”，携程深知，AI能否给出可靠答案，将直接关乎游客的出行体验。

客服
当前互联网平台主流的客服回复方式，无外乎线上咨询、电话语音和电子邮件。随着技术升级迭代，携程已将成熟的AI客服系统与客户无缝对接。

据了解，在中文渠道或是涉及多语种对话的场景中，携程AI的自助率已经达到了约75%，50%的电话咨询能够通过AI解决；利用文本抽取和意图识别技术，后台25%的邮件反馈，也已交由AI进行回复。
数据显示，AI客服上线至今，日均可节约10000+小时客服工作时间，邮件回复速度已从小时级降低至分钟级。

显然，凭借公司自身在旅游行业多年深耕积累的旅游数据，训练语义理解、信息抽取、信息摘要等模型，携程正在用AI技术，提升着旅行全程的效率和体验。

中国移动

数据优势：

数据覆盖人们的生活，移动用户基数大
尤其是轨迹位置数据

融合多种位置数据，包括信令、话单、MR以及流量解析中的GPS数据等，综合多维模型能力，提供高精准、高保障、高连接、
高响应、低时延的实时精准位置服务能力。

时间和位置数据如何利用？

TimeGPT的方案，Transformer单独训练一个预测大模型，作为一个轨迹预测模块，针对单用户进行时间序列建模
多模态大模型，将时间和位置加入预训练数据中，作为一个Prefix，拼接到数据中
- 存在一个问题，训练数据是已知的，推理是未知的，OOD
- 位置可以直接拼接，时间不行使用相对时间，offset偏移？
  - 针对一个位置使用相对时间？
Diffusion模型，进行预测
- 扩散模型生成GPS轨迹：https://zhuanlan.zhihu.com/p/660517182
TrafficGPT
- https://zhuanlan.zhihu.com/p/656801328
- https://arxiv.org/pdf/2309.06719.pdf
- 用Tools实现各个功能的调用，

移动目前的核心就是，基于位置的识别模型？
- 那么我们如何建立一个大一统的识别模型呢？
- 其实不用，可以使用Tools来唤醒各个专用的小模型
需要精确性和可靠性
- 精确性：ChatGPT已经可以很好的知道世界的经纬度了，所以可以大胆的加入位置信息进行训练
- 可靠性：语言模型无法做到实时查询，通过tools来实现实时的查询

TrafficGPT的可靠性解决方案：

数据真实性：指示TrafficGPT避免生成虚假的交通基础模型（TFM）名称、输入和输出数据至关重要。这确保输出可信且可靠，最大程度地减少了误导信息的可能性。

最小化冗余：通过指示TrafficGPT避免重复使用工具，您鼓励了连贯的问题解决，同时减少了错误的机会。这种方法通过防止不必要的重复，增强了系统的可靠性和准确性。

人工干预协议：承认现有信息和TFM的局限性，该协议强调了当TrafficGPT遇到无法准确完成的情况时人工干预的重要性。它指示系统暂停并请求人类提供额外信息，以确保最终输出的准确性和可靠性。

任务精确性和响应及时性：由于TrafficGPT利用多种交通基础模型（TFMs）并能将它们相互关联以完成复杂任务，因此提供精确的提示变得至关重要。这确保系统准确理解任务要求，并能及时地做出响应，有效地利用相互关联的TFMs。

这些策略共同旨在通过关注真实数据生成、避免冗余、在需要时引入人工监督，并通过精确的任务理解和及时的响应来维护TrafficGPT在处理复杂交通相关任务时的可靠性和准确性。

ChatGLM问答（回复生成）

https://mp.weixin.qq.com/s/1ODytWmjCkEs8lL5VFo-PA

GPS轨迹（轨迹预测）

DiffTraj: 利用扩散模型生成 GPS 轨迹: https://zhuanlan.zhihu.com/p/660517182
DYffusion: DYnamics-Informed Diffusion Model: https://neurips.cc/media/neurips-2023/Slides/73469.pdf

在这里插入图片描述

TableGPT(做数据分析)

https://zhuanlan.zhihu.com/p/644674989

Global Table Representation 表格全局表达
Chain-of-Command 链式命令
Domain-aware Fine-Tuning 领域感知微调
在这里插入图片描述

Background:目前的大模型逐渐走向多模态，除了文字之外，还可以处理图像、音频等。但就如之前所说，现有的大模型处理表格数据的能力十分有限。要让大模型正确地理解和解释表格是一个难题。之前有人做过各种尝试，比如把表格数据的每一行转换成句子状的文本描述等等。但这些方法都只是从表格里提取了部分信息喂给大模型，而忽略了整体，也没有考虑到数据中隐含的行业相关背景。

那么能不能直接从表格中提取矢量表征呢？这里最大的挑战是，不同于图像、音/视频，表格数据是一种非常抽象的结构化数据。同时表格还具有双置换不变结构，即重新排列行或列不会影响表格中包含的信息，这与图像和音频形成了鲜明的对比，后者在相邻位置或序列中具有归纳偏差。更不用说不同的表格的大小、尺寸、列数都不一样，要用统一的神经网络架构来提取特征是很困难的。

普通的大模型在理解表格的时候往往太拘泥于每一格中的具体信息，而忽略了全局。于是研究团队的解决方法是让他们的模型像人类数据分析师那样去理解表格。具体来说，就是把表格中的信息分成两部分：

第一部分是表格的元数据表征，即表格的呈现形式、表格内容的行业背景，每一列的栏目名称等。这样可以大模型对表格结构有一个整体的把握。
而第二部分是学习表格中的数字信息表征，比如每一列中数值的分布和变化趋势。这里他们将表格的行和列视为一组元素,并学习整个集合的整体表征。而表格编码器的主干来自修饰过的集合转换器（modified set transformer）。

编码器通过注意力机制加强之后可以理解不同行和列之间的相互关系。

指令链

大模型具有思维链（chain-of-thought），可以把复杂的推理过程分解成一系列中间步骤。而在这里，研究团队提出指令链（chain-of-command），为思维链的这一系列中间步骤提供逐步的指示。

例如当用户提出：“列出 5 部利润最高的电影。” 大模型会先检查列表里面有没有利润这一栏，如果没有这一栏，那么它会生成一套指示来指导自己通过票房和成本数据计算出利润，再根据指示按照利润高低排列电影，找出利润最高的那 5 部。指令链增强了大模型的多跳推理（multi-hop reasoning）能力，使其能够把用户的诉求拆解成一系列指令，这样更易于进行复杂的跨表格操作。此外，当用户的请求太过模糊、宽泛的时候，比如用户说“给我一些数据”，那么指令链还会提醒用户把请求变得具体、明确。

用处： 用自然语言去进行数据分析

另一方面，在同一企业内部，数据分析部门与其它部门之间沟通不畅，数据分析的术语对于其它部门人员来说晦涩难懂，而数据分析师由于不在业务的一线，也很难理解业务的真实需求。

如果有一个工具可以降低数据分析的门槛，让所有人都可以用自然语言与之交互，省去了学习复杂的工具和写代码的麻烦，那么将大有可为。我们希望 TableGPT 会是这样的工具。

查看全文

http://www.kler.cn/a/135839.html