当前位置：首页 > article >正文

RAG快问：大数据与AI真有价值还是炒过头？

article 2025/3/1 16:50:53

过去一年多，RAG（检索增强生成，retrieval augmented generation）正成为大数据与 AI 融合的“新宠”。想象一下，当你用 AI 助手快速总结论文或分析数据时，背后可能已经是 RAG 技术在默默发力。它就像是AI界的瑞士军刀，让大数据和AI的结合不仅仅是潮流，更是效率的革命。

显而易见，随着生成式 AI 如 ChatGPT 的兴起，“大数据 +AI”的热度不断飙升，特别是在 RAG 技术的加持下，它们的结合为企业创造价值的潜力正逐渐被认可。

不过，技术的发展总是伴随着质疑和探索。虽然很多人看到这股潮流的迅猛发展，但也难免心生疑惑和不安：大数据和 AI 的融合到底是不是又一轮泡沫？它所谓的价值是什么？具体要怎样才能借助 AI 与大数据来提升竞争力？RAG 为什么这么火爆？

带着这些疑问，日前相关从业人员围绕“大数据 +AI”的真实价值、RAG 技术如何从这浪潮中突围展开讨论。

一，Data 加 AI 真有价值？

虽然大模型和AI抢尽风头，但别忘了，大数据才是幕后英雄。它就像是AI的健身房，提供了锻炼智能肌肉所需的一切。没有大数据，AI就像是没有食谱的厨师，空有一身本领却无处施展。对于屏幕前的你来说，当在电脑端想要搜索一些知识点或寻找答案时，你是会选择传统搜索引擎，还是像 ChatGPT 这样的 AI 平台？同样地，当你希望能快速了解一篇论文的要点时，会不会直接让大模型帮你做个总结？

从 C 端用户的反馈来看，通用大模型无疑已经逐渐渗透进日常工作，特别是在那些比较简单、重复性的任务上，AI 的效率优势显而易见。

不过，这只是 AI 大模型的其中一面。在企业级应用、专业性更强的 B 端场景下，大模型是否同样带来效率提升呢？

部分研究人员倾向于认为答案是正面的。尤其是在 RAG 技术的推动下。RAG 正在成为数据 +AI 的主流应用方案。根据 InfoQ 的统计，RAG 技术在今年的多场技术大会上成为了焦点之一。而且从 arXiv 上与 RAG 相关的文章数量来看，年初时还比较少，而到了年中，相关研究已经呈现显著增长，几乎每天都有新论文发表。这说明，RAG 技术的受欢迎程度在工业界、产业界和学术界正逐渐成为共识。

如今，大模型技术，尤其是结合 RAG 解决“幻觉”、私域数据使用等问题，便可以有效提升这些数据的应用，解决企业在生产和服务中的实际问题。

二、为什么大数据“不够火”？

大模型很火、AI 很火、RAG 也很火，但大数据技术本身却似乎没有那么火。

“大数据依然非常重要，只是目前它被大模型的光环所遮盖。”相关从业人员表示，虽然 C 端用户更关注体验和产品，但要构建一个好的大模型，算力、算法和数据依然是三大要素，而数据的收集、处理和清洗仍是关键，很多公开的大模型没有对外披露如何处理数据，这部分的工作往往被忽视。

从企业和市场的角度来看，业界常讨论的“AI for data”或者“data for AI”，也不会是一个“谁主导谁”的问题。数据和 AI 是相辅相成的。大模型的性能不仅依赖于 AI 的算法和算力，要产生好的 AI 模型，首先还是需要大量且高质量的清洗数据。有时候，一些较小的模型，尽管参数规模不如大的模型，但因为数据质量高，表现反而更好。

同时，AI 的发展对大数据技术提出了新的要求，特别是在云原生和弹性计算方面。以大模型训练为例，正常情况下只需几百核的算力，但在处理大规模数据时可能需要扩展到几万核，对大数据系统的弹性能力提出了非常高的要求。此外，随着数据量的增长，降低成本和提升存储性能也是大数据领域未来发展的核心。

总之，大数据从未远离，它始终是 AI 背后不可或缺的支撑。无论是过去、当下，还是未来，数据的管理和应用仍然是核心。

三、为什么数据质量很重要？

在AI的世界里，数据就像是食材。质量越高，做出来的菜越美味。清洗数据就像是挑选新鲜食材，虽然辛苦，但为了那一口美味，值得！大模型本质上是通过数据训练出来的网络，网络中的权重反映了数据的知识结构。因此，大模型本身就代表了数据与 AI 的融合。要训练出一个好的大模型，数据的质量至关重要。通常需要先收集大量数据，可能达到几十个 PB，但经过清洗和去重处理后，实际用于训练的数据可能只有几个 T。而这个过程十分关键，因为数据量越大，对算力的需求就越高，数据清洗则可以降低计算资源的消耗。

从技术流程来看，数据从收集、清洗到用于模型训练的每一步，都离不开大数据系统。腾讯云提供了从数据的收集、处理、开发到训练的全流程支持，确保数据与 AI 深度融合。通过这套方案，开发者和企业可以更便捷地训练出他们所需的模型。

而从另一角度看，模型训练完成后，AI 反过来也能帮助优化大数据分析。黄世飞表示，过去，他们需要依赖经验去诊断大数据系统中的问题，但现在，AI 可以通过分析日志和诊断信息来辅助判断。以前可能使用规则引擎，今天大模型让 AI 能够更灵活地处理大数据的复杂问题。

实际上，不管是制造业还是其他行业，AI 的应用都依赖于数据平台。比如，生产中的每一条数据都可以视为一个标签，通过 AI 挖掘这些标签与其他数据的关系，就能生成可操作的商业洞察。无论是 AIOps、BusinessOps，还是制造业中的生产优化，AI 都能通过数据分析帮助企业提升效率和决策能力。同时，AI 还可以处理复杂的操作流程和知识管理。过去，工业领域的操作人员需要依赖手册查找机械操作步骤。如今，通过大模型，AI 可以有逻辑地给出精准的操作指令，减轻操作人员的负担。

此外，数据平台的核心在于如何高效导入、处理和展示数据，而 AI 也能够显著提升这一过程的效率。过去，理清某个数据字段的血缘关系是一项复杂的任务，而现在 AI 可以迅速梳理出数据的来源与关系，提升开发效率。此外，AI 还能帮助自动检测代码错误，大幅提高开发者的生产力。

未来，数据平台中很可能会引入 AI 助手，进一步辅助开发者完成数据分析、优化数据处理流程，这将是 AI 赋能数据平台的一个重要发展方向。

传统企业的数字化转型很大程度上取决于文化的转变。如果公司能够将 IT 视为核心资产而非单纯的成本，就能更好地应用数据和 AI 技术，提升整体的业务竞争力。

随着 AI 和数据技术的深度融合，开始出现这样的声音：是否会有一个工具能够超越 Excel，成为数据分析的“新王者”？腾讯云负责人黄世飞认为，这是完全有可能的。不可否认，Excel 是一款非常强大的工具，几乎可以处理各种类型的报表和分析任务。但是，它的操作门槛较高，用户需要对各种函数有深入的了解，才能真正发挥它的全部功能。对于许多非技术用户来说，这是一个巨大的障碍。“未来的 AI 可能会通过简化这些复杂的操作过程，让数据分析变得更加简单直观。”他表示，AI 可以通过自动化生成分析过程来帮助用户。用户只需要提出他们想要的结果，AI 就能根据需求选择合适的函数和方法来完成任务。这样的工具将不再依赖用户的专业知识，而是通过 AI 的智能支持，极大降低了使用门槛。

除了操作门槛，Excel 的另一个局限性在于它的性能限制。随着数据量的增加，Excel 在处理大型文件时往往会变得非常慢，甚至会导致文件崩溃。而如今，数据量的爆炸式增长已成常态，几百兆甚至上 GB 级别的文件已经不足为奇。

云计算有望解决这个问题。云上有强大的存储和计算能力，处理几百 G 甚至 TB 级别的数据都不在话下。如果未来能开发出类似“云 Excel”的应用，将数据存储在云端，并通过云计算来处理，那就能够打破当前 Excel 的数据量限制。

因此，未来的应用可能通过两个关键途径超越 Excel：一是通过 AI 简化数据分析的过程，让用户不再需要熟练掌握复杂的函数和操作；二是通过云计算扩大数据存储与处理的能力，打破当前 Excel 在数据量和性能上的限制。随着数据量的持续增长，未来对这种工具的需求也会越来越强烈。

四、为什么是 RAG ？

AI有时候也会“说谎”，这就是所谓的“幻觉”问题。大模型的“幻觉”问题，指的是在复杂逻辑推理中，模型生成的结果可能与真实情况不符。而 RAG 的引入，成为当下解决这一问题的重要技术方案。但别担心，RAG技术就像是AI的“真相血清”，确保AI给出的答案是真实可靠的。它不仅解决了问题，还能快速更新知识库，让AI始终保持最新状态。

解决这些问题的过程实际上涉及数据的向量化。向量化本身是一个复杂的过程，需要将数据转化为向量形式。不同场景对向量化的需求不同，因此作为技术服务商也需要支持更多样化的 embedding 技术，才能更好地应对多样化的场景需求。

大模型有时候无法控制返回的答案，因为它太智能了。这时候，RAG 可以帮助他们构建自己的私有知识库，确保大模型生成的答案符合企业需求。当然，有人可能觉得这是对大模型的限制，但对于企业应用来说，建立一个安全、可靠的知识库是至关重要的。通过 RAG 技术，可以帮助客户将他们的知识库构建在 ELK 系统中，确保了数据安全和答案的准确性。

过去，生成报表和进行复杂数据分析往往需要专业的技术能力。而如今，AI 与数据的结合让用户可以通过自然语言完成数据分析，大大降低了数据分析的门槛，尤其是对非技术背景的用户而言，这无疑是一种便利。但AI 大模型的普及是否能真正降低数据分析的门槛？RAG 技术的确已经讨论了一段时间，随着大模型的普及，RAG 的应用越来越广泛。尤其是在利用 AI 进行数据检索和生成时，RAG 提供了极大的便利。不过，高昂的专业服务费用仍是一大痛点，许多客户都提到这是他们面临的挑战之一。如果大模型技术能够进一步普及，并且降低使用成本，接下来就会有更多非专业用户能更容易地使用这些技术，而不仅仅局限于专业人士。

五、数据分析市场在本土和海外有何不同

国内市场的数据分析就像是快餐，追求的是快速、实惠、立等可取。而海外市场则更像是高级餐厅，他们喜欢慢慢来，通过文档和API自己烹饪。这说明，不同的市场有不同的口味，而一个好的服务商需要成为万能的厨师。

在国内市场，企业在选择数据分析产品时，最关注的往往是成本和投资回报率。许多企业会优先考虑自建系统，如果外部产品的成本高于自建，他们可能会选择放弃购买外部产品。因此，确保产品的成本优势，是很多服务商设计产品的首要任务。

此外，国内企业客户对服务的即时性有着很高的要求。他们习惯于通过即时通讯工具获得服务支持，并期望遇到问题时能够迅速得到回应。相比之下，海外客户则更习惯于通过提交工单或邮件的方式获得支持，也更习惯通过阅读详细的文档来解决问题，如果文档解决不了，才会进一步寻求支持，所以文档的完善、本地化和英文化也很重要。

同时，由于海外市场的企业代码能力很强，他们更倾向于通过 API 将外部服务集成到自建平台中，而不是依赖官方的控制台，因此产品模块要足够灵活，才可以通过 API 进行高效对接。

六、大数据 +AI 时代，人才何去何从

“大数据 + AI” 快速发展，企业面临着技术变革带来的挑战，员工的职业发展也因此充满了更多的不确定性和机遇。如何在大数据和 AI 时代下，抓住机会提升自我，是许多职场人关心的话题。

然而，不安定的环境往往是学习新技能的最佳时机。在技术变革下，最重要的是敢于走出舒适区，主动学习那些你尚未掌握的技能。无论是 IT 技术还是其他领域，个人和公司的成长都发生在不安稳的状态下。因此，面对大数据和 AI 技术的不断进步，不要害怕新技术，反而要主动去掌握它们。并且不要等别人先尝试，要成为第一个行动的人，“to be the leader，not the follower。”

关于大数据和 AI 技术对人才培养的实际影响。今天的学习门槛相比以往已经大大降低。过去可能需要花很多时间买书、看视频，而现在，AI 技术本身就能帮助我们更有效地获取知识。例如，大模型可以快速搜索文献、资料，极大地提升了学习效率。因此，学习条件的提升意味着我们更有机会掌握新的技能，关键在于是否愿意付出时间和精力。在大数据和AI的舞池里，唯一不变的就是变化。这是一个学习新舞步的绝佳时机，勇敢地走出舒适区，去学习那些让你心跳加速的新技能，创造没有的可能。

更多AI知识可以关注我们，也欢迎关注公主号“顺网智算”

查看全文

http://www.kler.cn/a/350043.html