当前位置: 首页 > article >正文

RAG快问:大数据与AI真有价值还是炒过头?

过去一年多,RAG(检索增强生成,retrieval augmented generation)正成为大数据与 AI 融合的“新宠”。想象一下,当你用 AI 助手快速总结论文或分析数据时,背后可能已经是 RAG 技术在默默发力。它就像是AI界的瑞士军刀,让大数据和AI的结合不仅仅是潮流,更是效率的革命。

显而易见,随着生成式 AI 如 ChatGPT 的兴起,“大数据 +AI”的热度不断飙升,特别是在 RAG 技术的加持下,它们的结合为企业创造价值的潜力正逐渐被认可。

不过,技术的发展总是伴随着质疑和探索。虽然很多人看到这股潮流的迅猛发展,但也难免心生疑惑和不安:大数据和 AI 的融合到底是不是又一轮泡沫?它所谓的价值是什么?具体要怎样才能借助 AI 与大数据来提升竞争力?RAG 为什么这么火爆?

带着这些疑问,日前相关从业人员围绕“大数据 +AI”的真实价值、RAG 技术如何从这浪潮中突围展开讨论。

一,Data 加 AI 真有价值?

虽然大模型和AI抢尽风头,但别忘了,大数据才是幕后英雄。它就像是AI的健身房,提供了锻炼智能肌肉所需的一切。没有大数据,AI就像是没有食谱的厨师,空有一身本领却无处施展。对于屏幕前的你来说,当在电脑端想要搜索一些知识点或寻找答案时,你是会选择传统搜索引擎,还是像 ChatGPT 这样的 AI 平台?同样地,当你希望能快速了解一篇论文的要点时,会不会直接让大模型帮你做个总结?

从 C 端用户的反馈来看,通用大模型无疑已经逐渐渗透进日常工作,特别是在那些比较简单、重复性的任务上,AI 的效率优势显而易见。

不过,这只是 AI 大模型的其中一面。在企业级应用、专业性更强的 B 端场景下,大模型是否同样带来效率提升呢?

部分研究人员倾向于认为答案是正面的。尤其是在 RAG 技术的推动下。RAG 正在成为数据 +AI 的主流应用方案。根据 InfoQ 的统计,RAG 技术在今年的多场技术大会上成为了焦点之一。而且从 arXiv 上与 RAG 相关的文章数量来看,年初时还比较少,而到了年中,相关研究已经呈现显著增长,几乎每天都有新论文发表。这说明,RAG 技术的受欢迎程度在工业界、产业界和学术界正逐渐成为共识。

如今,大模型技术,尤其是结合 RAG 解决“幻觉”、私域数据使用等问题,便可以有效提升这些数据的应用,解决企业在生产和服务中的实际问题。

二、为什么大数据“不够火”?

大模型很火、AI 很火、RAG 也很火,但大数据技术本身却似乎没有那么火。

“大数据依然非常重要,只是目前它被大模型的光环所遮盖。”相关从业人员表示,虽然 C 端用户更关注体验和产品,但要构建一个好的大模型,算力、算法和数据依然是三大要素,而数据的收集、处理和清洗仍是关键,很多公开的大模型没有对外披露如何处理数据,这部分的工作往往被忽视。

从企业和市场的角度来看,业界常讨论的“AI for data”或者“data for AI”,也不会是一个“谁主导谁”的问题。数据和 AI 是相辅相成的。大模型的性能不仅依赖于 AI 的算法和算力,要产生好的 AI 模型,首先还是需要大量且高质量的清洗数据。有时候,一些较小的模型,尽管参数规模不如大的模型,但因为数据质量高,表现反而更好。

同时,AI 的发展对大数据技术提出了新的要求,特别是在云原生和弹性计算方面。以大模型训练为例,正常情况下只需几百核的算力,但在处理大规模数据时可能需要扩展到几万核,对大数据系统的弹性能力提出了非常高的要求。此外,随着数据量的增长,降低成本和提升存储性能也是大数据领域未来发展的核心。

总之,大数据从未远离,它始终是 AI 背后不可或缺的支撑。无论是过去、当下,还是未来,数据的管理和应用仍然是核心。

三、为什么数据质量很重要?

在AI的世界里,数据就像是食材。质量越高,做出来的菜越美味。清洗数据就像是挑选新鲜食材,虽然辛苦,但为了那一口美味,值得!大模型本质上是通过数据训练出来的网络,网络中的权重反映了数据的知识结构。因此,大模型本身就代表了数据与 AI 的融合。要训练出一个好的大模型,数据的质量至关重要。通常需要先收集大量数据,可能达到几十个 PB,但经过清洗和去重处理后,实际用于训练的数据可能只有几个 T。而这个过程十分关键,因为数据量越大,对算力的需求就越高,数据清洗则可以降低计算资源的消耗。

从技术流程来看,数据从收集、清洗到用于模型训练的每一步,都离不开大数据系统。腾讯云提供了从数据的收集、处理、开发到训练的全流程支持,确保数据与 AI 深度融合。通过这套方案,开发者和企业可以更便捷地训练出他们所需的模型。

而从另一角度看,模型训练完成后,AI 反过来也能帮助优化大数据分析。黄世飞表示,过去,他们需要依赖经验去诊断大数据系统中的问题,但现在,AI 可以通过分析日志和诊断信息来辅助判断。以前可能使用规则引擎,今天大模型让 AI 能够更灵活地处理大数据的复杂问题。

实际上,不管是制造业还是其他行业,AI 的应用都依赖于数据平台。比如,生产中的每一条数据都可以视为一个标签,通过 AI 挖掘这些标签与其他数据的关系,就能生成可操作的商业洞察。无论是 AIOps、BusinessOps,还是制造业中的生产优化,AI 都能通过数据分析帮助企业提升效率和决策能力。同时,AI 还可以处理复杂的操作流程和知识管理。过去,工业领域的操作人员需要依赖手册查找机械操作步骤。如今,通过大模型,AI 可以有逻辑地给出精准的操作指令,减轻操作人员的负担。

此外,数据平台的核心在于如何高效导入、处理和展示数据,而 AI 也能够显著提升这一过程的效率。过去,理清某个数据字段的血缘关系是一项复杂的任务,而现在 AI 可以迅速梳理出数据的来源与关系,提升开发效率。此外,AI 还能帮助自动检测代码错误,大幅提高开发者的生产力。

未来,数据平台中很可能会引入 AI 助手,进一步辅助开发者完成数据分析、优化数据处理流程,这将是 AI 赋能数据平台的一个重要发展方向。

传统企业的数字化转型很大程度上取决于文化的转变。如果公司能够将 IT 视为核心资产而非单纯的成本,就能更好地应用数据和 AI 技术,提升整体的业务竞争力。

随着 AI 和数据技术的深度融合,开始出现这样的声音:是否会有一个工具能够超越 Excel,成为数据分析的“新王者”?腾讯云负责人黄世飞认为,这是完全有可能的。不可否认,Excel 是一款非常强大的工具,几乎可以处理各种类型的报表和分析任务。但是,它的操作门槛较高,用户需要对各种函数有深入的了解,才能真正发挥它的全部功能。对于许多非技术用户来说,这是一个巨大的障碍。“未来的 AI 可能会通过简化这些复杂的操作过程,让数据分析变得更加简单直观。”他表示,AI 可以通过自动化生成分析过程来帮助用户。用户只需要提出他们想要的结果,AI 就能根据需求选择合适的函数和方法来完成任务。这样的工具将不再依赖用户的专业知识,而是通过 AI 的智能支持,极大降低了使用门槛。

除了操作门槛,Excel 的另一个局限性在于它的性能限制。随着数据量的增加,Excel 在处理大型文件时往往会变得非常慢,甚至会导致文件崩溃。而如今,数据量的爆炸式增长已成常态,几百兆甚至上 GB 级别的文件已经不足为奇。

云计算有望解决这个问题。云上有强大的存储和计算能力,处理几百 G 甚至 TB 级别的数据都不在话下。如果未来能开发出类似“云 Excel”的应用,将数据存储在云端,并通过云计算来处理,那就能够打破当前 Excel 的数据量限制。

因此,未来的应用可能通过两个关键途径超越 Excel:一是通过 AI 简化数据分析的过程,让用户不再需要熟练掌握复杂的函数和操作;二是通过云计算扩大数据存储与处理的能力,打破当前 Excel 在数据量和性能上的限制。随着数据量的持续增长,未来对这种工具的需求也会越来越强烈。

四、为什么是 RAG ?

AI有时候也会“说谎”,这就是所谓的“幻觉”问题。大模型的“幻觉”问题,指的是在复杂逻辑推理中,模型生成的结果可能与真实情况不符。而 RAG 的引入,成为当下解决这一问题的重要技术方案。但别担心,RAG技术就像是AI的“真相血清”,确保AI给出的答案是真实可靠的。它不仅解决了问题,还能快速更新知识库,让AI始终保持最新状态。

解决这些问题的过程实际上涉及数据的向量化。向量化本身是一个复杂的过程,需要将数据转化为向量形式。不同场景对向量化的需求不同,因此作为技术服务商也需要支持更多样化的 embedding 技术,才能更好地应对多样化的场景需求。

大模型有时候无法控制返回的答案,因为它太智能了。这时候,RAG 可以帮助他们构建自己的私有知识库,确保大模型生成的答案符合企业需求。当然,有人可能觉得这是对大模型的限制,但对于企业应用来说,建立一个安全、可靠的知识库是至关重要的。通过 RAG 技术,可以帮助客户将他们的知识库构建在 ELK 系统中,确保了数据安全和答案的准确性。

过去,生成报表和进行复杂数据分析往往需要专业的技术能力。而如今,AI 与数据的结合让用户可以通过自然语言完成数据分析,大大降低了数据分析的门槛,尤其是对非技术背景的用户而言,这无疑是一种便利。但AI 大模型的普及是否能真正降低数据分析的门槛?RAG 技术的确已经讨论了一段时间,随着大模型的普及,RAG 的应用越来越广泛。尤其是在利用 AI 进行数据检索和生成时,RAG 提供了极大的便利。不过,高昂的专业服务费用仍是一大痛点,许多客户都提到这是他们面临的挑战之一。如果大模型技术能够进一步普及,并且降低使用成本,接下来就会有更多非专业用户能更容易地使用这些技术,而不仅仅局限于专业人士。

五、数据分析市场在本土和海外有何不同

国内市场的数据分析就像是快餐,追求的是快速、实惠、立等可取。而海外市场则更像是高级餐厅,他们喜欢慢慢来,通过文档和API自己烹饪。这说明,不同的市场有不同的口味,而一个好的服务商需要成为万能的厨师。

在国内市场,企业在选择数据分析产品时,最关注的往往是成本和投资回报率。许多企业会优先考虑自建系统,如果外部产品的成本高于自建,他们可能会选择放弃购买外部产品。因此,确保产品的成本优势,是很多服务商设计产品的首要任务。

此外,国内企业客户对服务的即时性有着很高的要求。他们习惯于通过即时通讯工具获得服务支持,并期望遇到问题时能够迅速得到回应。相比之下,海外客户则更习惯于通过提交工单或邮件的方式获得支持,也更习惯通过阅读详细的文档来解决问题,如果文档解决不了,才会进一步寻求支持,所以文档的完善、本地化和英文化也很重要。

同时,由于海外市场的企业代码能力很强,他们更倾向于通过 API 将外部服务集成到自建平台中,而不是依赖官方的控制台,因此产品模块要足够灵活,才可以通过 API 进行高效对接。

六、大数据 +AI 时代,人才何去何从

“大数据 + AI” 快速发展,企业面临着技术变革带来的挑战,员工的职业发展也因此充满了更多的不确定性和机遇。如何在大数据和 AI 时代下,抓住机会提升自我,是许多职场人关心的话题。

然而,不安定的环境往往是学习新技能的最佳时机。在技术变革下,最重要的是敢于走出舒适区,主动学习那些你尚未掌握的技能。无论是 IT 技术还是其他领域,个人和公司的成长都发生在不安稳的状态下。因此,面对大数据和 AI 技术的不断进步,不要害怕新技术,反而要主动去掌握它们。并且不要等别人先尝试,要成为第一个行动的人,“to be the leader,not the follower。”

关于大数据和 AI 技术对人才培养的实际影响。今天的学习门槛相比以往已经大大降低。过去可能需要花很多时间买书、看视频,而现在,AI 技术本身就能帮助我们更有效地获取知识。例如,大模型可以快速搜索文献、资料,极大地提升了学习效率。因此,学习条件的提升意味着我们更有机会掌握新的技能,关键在于是否愿意付出时间和精力。在大数据和AI的舞池里,唯一不变的就是变化。这是一个学习新舞步的绝佳时机,勇敢地走出舒适区,去学习那些让你心跳加速的新技能,创造没有的可能。

版权声明:除原创作品外,本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因或会存在不当使用的情况,如,部分文章或文章部分引用内容未能及时与原作者取得联系,或作者名称及原始出处标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系。

更多AI知识可以关注我们,也欢迎关注公主号“顺网智算”


http://www.kler.cn/a/350043.html

相关文章:

  • N1092A DCA-M采样示波器
  • js中map,filter,find,foreach的用法介绍
  • Android App系统签名
  • 苍穹外卖学习笔记(二十二)
  • 集成mqtt协议 并以线程池来读取请求
  • springboot医院预约挂号系统
  • Paramiko的keepalive机制
  • ubuntu安装docker及docker compose
  • 创建包含可导入浏览器信任的SSL自签名证书
  • jeecg3版本的vue,离线启动
  • Python中asyncio的多种用法:异步同步
  • 解决php连接本地mysql连接错误的问题
  • MySQL改密码后不生效问题
  • Flutter-发现局域网中的设备
  • 使用Qwen千问大模型和LangChain打造RAG应用
  • QObject: Cannot create children for a parent that is in a different thread
  • mysql 慢查询记录
  • docker网络管理详解 一
  • 各种软件学习版本Mark 长更
  • springBoot 实现 cas身份认证登录