Skip to content

Latest commit

 

History

History
211 lines (106 loc) · 17.4 KB

top-10-data-ai-trends-for-2025-4ed785cafe16.md

File metadata and controls

211 lines (106 loc) · 17.4 KB

2025 年数据与 AI 十大趋势

原文:towardsdatascience.com/top-10-data-ai-trends-for-2025-4ed785cafe16?source=collection_archive---------0-----------------------#2024-12-16

Agentic AI、小数据和在非结构化数据堆栈时代寻找价值。

Barr MosesTowards Data Science Barr Moses

·发表于Towards Data Science ·12 分钟阅读·2024 年 12 月 16 日

--

图片来源:蒙特卡洛

根据行业专家的说法,2024 年注定将成为生成式 AI 的辉煌之年。操作性应用案例不断浮现,技术正在降低进入门槛,而通用人工智能显然就在不远处。

那么……这些事情发生了吗?

嗯,差不多。到了 2024 年底,部分预测已经应验,热乎乎的已经出现。其余的则需要在“烤箱”里再待一段时间(我在看你,通用人工智能)。

这是前瞻性思想家和投资者 Tomasz Tunguz 对 2024 年底数据与 AI 现状的看法——以及我自己的一些预测。

2025 年数据工程趋势来袭。

1. 我们生活在一个没有理由的世界里(Tomasz)

在我们的 AI 反乌托邦刚刚过去三年时,开始看到一些企业在我们预期的领域创造价值——但并非所有领域。根据 Tomasz 的说法,当前的 AI 状态可以总结为三个类别。

1. 预测:AI 副驾驶能够完成句子、修正代码错误等。

2. 搜索:利用数据语料库来回答问题的工具

3. 推理:一个多步骤的工作流程,能够完成复杂的任务

虽然 AI 副驾驶和搜索在企业组织中已经取得了一些成功(特别是前者),但推理模型似乎仍然滞后。根据 Tomasz 的说法,这背后有一个明显的原因。

模型准确性。

正如 Tomasz 所解释的那样,当前的模型在没有看到特定模式很多次之前,很难有效地将任务拆分为多个步骤。而对于这些模型可能被要求执行的大多数工作,情况正是如此。

“今天……如果要求一个大型模型生成一个财务规划与分析图表,它可以做到。但如果存在某些有意义的变化——例如,我们从软件计费转向基于使用量的计费——它就会迷失方向。”

所以目前来看,它的 AI 驾驶员和部分准确的搜索结果似乎是获胜的关键。

2. 过程 > 工具(Barr)

一项新工具的有效性取决于支持它的过程。

随着“现代数据架构”多年来的不断发展,数据团队有时发现自己处于一种不断尝试的状态。他们过于关注平台的什么,而没有足够关注(可能更重要的)如何

但随着企业领域越来越接近生产就绪的 AI——如何将这些新工具投入运营变得更加紧迫。

让我们暂时考虑一下数据质量的例子。随着为 AI 提供数据的过程在 2024 年成为焦点,数据质量也随之步入了聚光灯下。面对生产就绪 AI 的现实可能性,企业数据领导者没有时间从数据质量菜单中挑选——这里做几个 dbt 测试,那里搞几个点解决方案。他们需要立刻交付价值,而且他们需要能够有效上手和部署的可信解决方案,今天

当企业数据领导者在面对即将到来的生产就绪 AI 时,他们没有时间从数据质量菜单中挑选——这里做几个 dbt 测试,那里搞几个点解决方案。他们已经有责任交付业务价值,而且他们需要能够有效上手和部署的可信解决方案,今天

现实是,你可能拥有市场上最先进的数据质量平台——最先进的自动化,最好的驾驶员,最闪亮的集成——但如果你无法快速让组织上线运行,那你其实不过是预算清单中的一项和桌面上的一个新标签。

在未来 12 个月内,我预计数据团队将更多倾向于选择经过验证的端到端解决方案,而非拼凑式的工具包,以优先解决更为关键的挑战,如数据质量的所有权、事件管理和长期领域赋能。

而能够实现这些优先事项的解决方案,将是 AI 领域的胜者。

3. AI 正在推动投资回报率——但不是收入(Tomasz)

像任何数据产品一样,生成型 AI 的价值表现为两种形式之一;降低成本或创造收入。

在收入方面,你可能会看到像 AI 销售开发代表、数据增强机器或推荐系统之类的工具。根据 Tomasz 的说法,这些工具可以生成大量销售线索……但它不会是一个健康的销售管道。所以,如果 AI 没有创造收入,它需要在削减成本方面发挥作用——在这方面,这项新兴技术显然已经找到了立足点。

“并不是很多公司通过这项技术获得了业务。大多数是通过降低成本。Klarna 裁掉了三分之二的员工。微软和 ServiceNow 的工程生产力提升了 50%-75%。”

根据 Tomasz 的说法,当满足以下三条标准之一时,AI 的应用场景就会带来成本降低的机会:

  • 重复性工作

  • 挑战性的劳动市场

  • 紧急的招聘需求

Tomasz 提到的一个有效推动新收入的组织案例是 EvenUp——一家自动化需求函的交易法律公司。像 EvenUp 这样支持模板化但高度专业化服务的组织,可能在 AI 现有形式下处于一个独特的位置,能够看到更大的影响。

4. AI 的采用速度比预期慢——但领导者正在耐心等待时机(Tomasz)

与一年前被广泛接受的“AI 战略”潮流相比,今天的领导者似乎已一致地从这项技术中退后一步。

“去年有一波人尝试各种软件,只是为了看看效果。它们的董事会在询问 AI 战略。但现在,这波早期潮流已经经历了大量的波动。”

虽然一些组织从早期的实验中并没有看到价值,但其他组织却在其基础技术的快速发展中遇到了困难。根据 Tomasz 的说法,这是投资 AI 公司面临的最大挑战之一。问题不在于技术在理论上没有价值——而是组织尚未弄清楚如何在实践中有效地利用它。

Tomasz 认为,下一波采用将与第一波不同,因为领导者将更加清楚自己需要什么——以及在哪里可以找到它。

就像大秀前的彩排一样,团队知道他们在寻找什么,他们已经解决了一些与法律和采购相关的问题——尤其是数据丢失和防护——并且他们已准备好在合适的机会出现时采取行动。

明天的最大挑战是什么?“如何更快地发现和销售价值?”

5. 小数据是 AI 的未来(Tomasz)

开源与托管的争论由来已久……嗯,确实是很久以前的事了。但是,当涉及到 AI 时,这个问题变得更加复杂。

在企业层面,这不仅仅是控制或互操作性的问题——尽管这确实可以发挥一定作用——更是一个运营成本的问题。

尽管 Tomasz 认为最大的 B2C 公司将使用现成的模型,但他预计 B2B 将趋向于使用他们自己的专有和开源模型。

“在 B2B 领域,你会看到整体上更多的小型模型,整体上更多的开源。这是因为运行一个小型开源模型要便宜得多。”

但这并非全是利益。小型模型也能提高性能。像谷歌一样,大型模型旨在服务于多种用例。用户可以向大型模型询问几乎任何问题,因此该模型需要在足够大的数据集上进行训练,以便提供相关的响应。水球。中国历史。法式吐司。

不幸的是,模型训练的主题越多,它就越容易混淆多个概念——而且随着时间的推移,输出的错误也会越多。

“你可以拿像 Llama 2 这种具有 80 亿参数的模型,使用 10,000 个支持票进行微调,它将表现得更好,”Tomasz 说。

更重要的是,ChatGPT 和其他托管解决方案经常因其创建者没有合法权利来使用训练这些模型的数据而在法庭上受到挑战。

在许多情况下,这可能并非错误。

除了成本和性能之外,这也可能对专有模型的长期采用产生影响——特别是在高度监管的行业中——但这种影响的严重性仍然不确定。

当然,专有模型也没有坐视不管。如果 Sam Altman 有话要说的话。 (如果推特教给我们什么,那就是 Sam Altman 肯定有很多话要说。)

专有模型已经在积极降价以促进需求。像 ChatGPT 这样的模型已经将价格降低了大约 50%,并预计在接下来的 6 个月内再降低 50%。这种降价可能是 B2C 公司在人工智能军备竞赛中竞争所急需的福音。

6. 对于分析师和数据工程师来说,界限越来越模糊(巴尔)

当谈到扩大管道生产时,数据团队通常会遇到两个挑战:没有足够技术经验的分析师和没有足够时间的数据工程师。

听起来像是人工智能的问题。

在我们展望数据团队可能如何发展的同时,我相信有两个主要发展趋势可能会推动 2025 年工程与分析职责的整合:

  • 增加的需求——随着企业领导者对数据和人工智能产品的需求增长,数据团队将被要求以更少的资源做更多的事情。为了尽量减少瓶颈,领导者将自然赋予之前专门化的团队更多的责任,负责他们的管道和相关方。

  • 自动化的改进——新需求总是推动新创新。(在这种情况下,这意味着由人工智能驱动的管道。)随着技术自然变得更加自动化,工程师将能够以更少的资源做更多的事情,而分析师将能够独立做更多的事情。

论点很简单——随着需求的增加,管道自动化将自然发展以满足需求。随着管道自动化的发展,创建和管理这些管道的障碍将降低。技能差距将减少,增加新价值的能力将提高。

向自助式人工智能驱动的管道管理转变意味着每个人工作中最痛苦的部分将被自动化——而他们创造和展示新价值的能力在这个过程中得到了扩展。听起来像是一个美好的未来。

7. 合成数据很重要——但它是有代价的(Tomasz)

你可能见过一条蛇吞噬自己尾巴的图片。如果你仔细看,会发现它和当代人工智能有着惊人的相似之处。

目前互联网上大约有 21 到 25 万亿个词汇(tokens)。目前投入生产的人工智能模型已经使用了其中的所有数据。为了让数据继续发展,需要一个更庞大的数据集来进行训练。数据越多,模型所能获取的上下文信息就越多——从而输出的结果也会更加准确。

那么,当人工智能研究人员没有足够的训练数据时,他们该怎么办?

它们是自己制造的。

随着训练数据变得越来越稀缺,像 OpenAI 这样的公司认为合成数据将成为未来训练模型的重要组成部分。在过去的 24 个月里,一个完整的产业已经发展起来,以服务于这一愿景——包括像 Tonic 这样的公司,生成合成结构化数据,以及像 Gretel 这样的公司,专门为金融和医疗等受监管行业创建合规数据。

那么,合成数据是长期的解决方案吗?可能不是。

合成数据通过利用模型创建反映某人可能自然找到的数据集(在某个数据更多的替代现实中),然后用这些新数据来训练他们自己的模型。小规模来看,这实际上是很有道理的。正如他们所说,过犹不及……

你可以把它看作是情境性营养不良。就像食物一样,如果一个新鲜的有机数据源是模型训练中最有营养的数据,那么从现有数据集中提炼出来的数据,按其本质来说,必定比原始数据更少营养。

少量的人工调味料是可以接受的——但如果这种合成训练数据的饮食继续下去,而没有新的草饲数据被引入,那么模型最终会失败(或者至少,指甲床会明显不再吸引人)。

这不再是“是否”问题,而是“何时”问题。

根据 Tomasz 的说法,我们离模型崩溃还有很长一段路。然而,随着人工智能研究不断推动模型达到其功能极限,不难想象有一天人工智能将达到其功能的瓶颈——可能会比预期更早到来。

8. 非结构化数据堆栈将会出现(Barr)

在生产中利用非结构化数据的想法并不是什么新鲜事——但在人工智能的时代,非结构化数据已经扮演了一个全新的角色。

根据 IDC 的一份报告,目前只有大约一半的组织非结构化数据正在被分析

这一切即将发生改变。

在生成性 AI 方面,企业成功在很大程度上依赖于用于训练、微调和增强 AI 的大量非结构化数据。随着越来越多的组织寻求将 AI 实际应用于企业用例,非结构化数据的热情——以及正在兴起的“非结构化数据堆栈”——也将持续增长。

一些团队甚至在探索如何使用额外的 LLM 来为非结构化数据添加结构,以便在更多的训练和分析用例中扩大其作用。

识别你组织中存在的非结构化一方数据——以及如何为你的利益相关者激活这些数据——是数据领导者展示其数据平台商业价值的一个蓝海机会(并希望能为优先事项争取一些额外预算)。

如果说 2024 年是探索非结构化数据潜力的一年,那么 2025 年将是实现其价值的一年。问题是……哪些工具将会脱颖而出?

9. 代理型 AI非常适合对话——但不适合部署(Tomasz)

如果你最近在风险投资圈子里活动,你很可能会听到几个术语频繁被提及:“副驾驶”是指用来完成单一步骤的 AI(“纠正我糟糕的代码”),而“代理”则是指多步骤工作流,它可以收集信息并利用这些信息执行任务(“写一篇关于我糟糕代码的博客,并发布到我的 WordPress”)。

毫无疑问,2024 年我们已经看到了 AI 副驾驶的很多成功案例(只要问问 Github、Snowflake、微软回形针等公司),但 AI 代理呢?

虽然“代理型 AI”在客户支持团队中引发了一些混乱,但看起来它短期内就只能停留在这个阶段。尽管这些早期的 AI 代理是一个重要的进步,但这些工作流的准确度仍然较低。

为了提供背景信息,75%-90%的准确度是 AI 的技术前沿。大多数 AI 相当于一名高中生。但如果你有三步分别为 75%-90%的准确度,最终的准确度大约为 50%。

我们已经训练大象用更高的准确度画画了。

远非为组织带来收入驱动,当前表现的绝大多数 AI 代理如果被投放到生产环境中,反而可能会带来负面影响。根据 Tomasz 的说法,我们首先需要解决这个问题。

能够谈论它们很重要,但没有人能在演示之外取得任何成功。因为无论硅谷的人们多么喜欢讨论 AI 代理,这些讨论并不会转化为实际的表现。

10. 管道正在扩展——但质量覆盖并没有跟上(Tomasz)

“在一次与多个 AI 负责人共进晚餐时,我问有多少人对输出结果的质量感到满意,结果没有人举手。在确保输出结果一致性方面,确实存在着质量挑战。”

每年,Monte Carlo 调查 真实数据专家关于数据质量状况的调查。今年,我们将目光投向了 AI 的阴影,结果非常明确。

数据质量风险在不断发展——但数据质量管理并未跟上。

“我们看到团队们正在大规模构建向量数据库或嵌入模型。大规模的 SQLLite。这些 1 亿个小数据库。它们开始在 CDN 层进行架构,以运行所有这些小型模型。iPhone 将拥有机器学习模型。我们将看到总数据管道数量的爆炸式增长,但每个管道的数据量会小得多。”

微调模式将在组织内部创造大量的数据管道。但管道越扩展,数据质量的问题就越难解决。

数据质量与管道的数量和复杂性成正比。你拥有的管道越多(而且越复杂),出现故障的机会就越多——而及时发现问题的可能性则越小。

+++

你怎么看?请联系 Barr,邮箱是 [email protected]*。我在听。*