大数据思考:面对海量数据时,选择哪种模式才是更适合自己的?
如果您从事科技行业或者您不在这个行业,也许您已经听说过很多关于 AI 的信息。 我所说的不仅仅是多年来我们都喜欢的科幻小说中“天网正在接管地球”式的人工智能,而是人工智能和机器学习已经逐渐成为我们日常生活中的实际应用 .
大数据是人工智能与机器学习的 生命线和支柱。 庞大的数据,或者说海量数据,一直驱动着当今的人工智能与机器学习的发展。虽然我们总是希望数据量越大越好,但近年来组织已经开始从追求大数据转向选择小而宽。
让我们比较一下两者。
大量的数据
大数据可以分为两种方式。
第一种是收集和组织大型数据集——这是一个可能难以良好执行的简单概念。 该过程需要大量快速填充且通常是非结构化数据。 容纳此数据流的后端基础设施是资源密集型的,会涉及到网络带宽、存储空间和处理能力以支持大规模数据库部署,并且 通常价格昂贵。
第二种方法将变得更棘手。 在拥有大量数据后,您需要从中提取所需的洞察力与价值。 技术已经发展以适应大数据的规模,但在确定可以从这些堆积如山的信息中得出什么方面却进展较少。
是时候变得更聪明了。 即使是无限存储空间和完美NoSQL部署的环境,如果没有合适的模型来匹配,世界上所有的数据都将毫无意义。
这其中也蕴含了机会。 一些公司正在寻找更多来源的更少数据更实用的用例,并从数据集中得出更好的结论和相关性。
小而宽
通过“小而宽”的方法,您可以查看更多种类的来源,搜索相关性,而不仅仅是增加原始数量。 这种更具战术性的方法需要更少的数据,从而减少计算资源。从小到大意味着寻找不同的数据格式,结构化和非结构化,并找到它们之间的联系。
根据 Gartner 2021 年的一份报告:“可以使用小数据和大数据的潜在领域是零售业的需求预测、应用于超个性化的客户服务中的实时行为和情感智能,以及客户体验的改善。”
潜力看上去很大,但在实践中看起来又是怎样的呢? 海量数据集可能会很快变得笨拙或过时。 在信息时代,人类趋势和行为可能会突然发生变化,容易发生文化和经济转变。 使用可以动态适应这些变化的较小数据集的更敏捷模型还有空间。
哈佛商业评论的一份报告解释说,“组织中许多最有价值的数据集都非常小:想想千字节或兆字节,而不是艾字节。 因为这些数据缺乏大数据的数量和速度,所以它经常被忽视,在PC和功能数据库中萎靡不振,并且与企业范围的IT创新计划无关。”
报告描述了他们与医学编码人员进行的一项实验,该实验强调了用小数据训练 人工智能时的人为因素。 我建议通读这项研究,但最终的结论是,除了小数据之外,考虑人为因素可以改进模型,并使组织在大数据军备竞赛中具有竞争优势。
换句话说,我们探讨的是小数据、大数据和智能数据的成功组合。
结论推导
这一切意味着什么呢?我们在前面已经描述了很多,最后简单举一个例子来总结:虽然我希望拥有一台足够强大的电脑,但它的发热量足以成为我的家庭或办公室的加热源,并且未来总有一天它会遇到问题,比如一个缺乏优化的软件依然会在这台性能强大的机器上以糟糕的方式运行,即使我们使用了高端的工作站,也无法逃脱这样的问题。
在多数情况下,将更多资源投入到一个问题上是不切实际的,而且会让人们忽视真正的问题。 更常见的情况是,有一个很好的改进机会摆在面前,这就是我们今天开始看到的大数据。 仍然存在确实需要大量数据的用例,但通过设计模型来充分利用数据也是至关重要的,而不仅仅是依靠设计方法来获得最多数据。