·发布在 Towards Data Science ·7 分钟阅读·2024 年 6 月 11 日
--
照片由 Mukuko Studio 提供,来源:Unsplash
*“我正在招聘一位开发人员,将 gpt4o 集成到我们的产品中。
要求:五年相关经验。”* - 2024 年 5 月,LinkedIn 上的一位未知用户
我大约在 9 年前还是学生时,开始接触数学建模。在完成了理论性很强的数学本科学位后,我选择了一些与数学建模和经济问题优化相关的硕士课程。那时我最喜欢的课题是时间序列。那时了解不同建模方法相对轻松,经过验证的方法已经存在了十多年,并且没有迅速变化。
几年前,进入数据科学领域时,情况也类似。基本的技术和模型学习起来相对较快。在实施过程中,很多内容都是从零开始,自建网络并使其运行。新的工具和技术备受欢迎并尝试使用。
今天的感觉则不同了。现在,当人们浏览 X 或 LinkedIn 的动态时,几乎每周都会收到关于重要工具和发展的新闻。
自从 2022 年 11 月 ChatGPT 发布以来,关于 LLM 的炒作已经变得极为剧烈。开源与闭源之间的竞赛拉开了序幕。谷歌推出了 Gemini,Meta 发布了 LLama,斯坦福大学则推出了 Alpaca。应用程序通过像 Langchain 这样的工具得以操作化,并且有一整套工具正在出现,用于标准化应用程序。调优机制不断得到改进。然后,还有 xgboost 2 的发布。
轮子似乎转得越来越快。近年来,这主要归功于 GenAI 方法的突破以及 MLOps 领域不断增长的工具箱。
跟上进展非常重要:市场上发生了什么?尤其是当你作为顾问在这一行业工作时。我们的客户想知道:什么是目前最热的新技术?我们如何能将其盈利化?
如今,保持进展非常重要!那些不这样做的人会很快失去联系。
是这样的吗?
上次我参加一个大型会议时,整整两夜未能入眠,几乎无法入睡。这不仅仅是因为在演讲前的紧张情绪,更因为在如此短的时间内,海量的信息不断向我扑来。
会议真是太棒了。我喜欢结识新朋友,了解不同的方法,并交换一些可能对我来说完全陌生的想法和问题。然而,那几晚我几乎没怎么睡觉。*“我需要稍后再深入研究一下”*的待办事项清单似乎根本无法完成。FOMO(错失恐惧症)悄然袭来。脑海中浮现出这样的想法:“现在跳上 GenAI 的列车还来得及吗?”在那一刻,我忽视了自己也在偏见之中。我的演讲是关于我们与一个客户一起实施的一个用例。两年的工作压缩成了三十分钟。观众是否按照预期从中获得了有价值的启示和思考?还是这个贡献也悄悄引发了 FOMO?
另一个反复出现的现象是冒名顶替综合症[1]。它描述了对自身能力产生强烈怀疑的现象,并伴随着被揭露为“骗子”的恐惧。患有冒名顶替综合症的人常常觉得自己不具备胜任自己职位或任务的能力,甚至通过与他人对比,产生瞬间的自我感知:“我其实什么都做不好。”
从与我工作环境中的人们的真诚交流中,我知道这种情况时不时会出现。曾与我交流过的人,我认为他们都具备非常高的经验和专业水平。几乎所有人都有过这种感觉。
技术的多样性和人工智能领域的快速进展也可能引发这种现象。
数据科学的核心要素是什么?它是一个能够创造附加价值的有效系统。如果你不是研究人员,而是业务中的数据科学家,那么重点就放在应用上。一个模型或启发式方法能够学习人类无法在如此细节上学习的逻辑,并/或在如此大规模上应用。这不必是一个端到端、完全自动化的解决方案。
应该从开发一个有效且得到利益相关者接受的系统开始。一旦建立了对该系统的信任,就可以着眼于进一步改善的部分。
是方法论吗?也许目前使用的某个算法可以被一个深度学习架构所替代,这种架构能够表示变量之间更多的相关性。
是运行时间吗?是否可以通过其他框架或并行化来缩短运行时间?如果是这样,那就可以着手深入研究这个话题。
也许它还包括系统化地捕捉和管理数据质量。数据验证工具可以帮助早期发现数据不平衡、识别漂移,并监控机器学习系统的输出。
小心翼翼地逐步接近新技术,并持续改进现有系统是可行的。
说实话,学习新方法和新技术需要时间。有很多方法可以快速获得概览:tl;dr 摘要、概览仓库、YouTube 频道等。然而,如果我不花更多时间去深入了解这些话题,我很快就会忘记它们。因此,为了熟悉一个特定的主题或技术,我不得不偶尔抽出一个晚上或一个星期六来深入研究。
个人知识获取需要时间这一事实,直接揭示了每个人都有的局限性。
另一个方面是,经验无法强迫。采用新技术的能力也随着已有经验的积累而增加。评估技术和工具的能力也一样。个人经验越丰富,越容易理解。但这要求先对其他技术有更深入的理解,而这种理解只能通过亲身实践获得。
不要害怕提问。在更高层次上尝试并没有错。但有时主动寻求经验也是值得的。也许你的公司或网络中已经有人使用过技术 xy?为什么不一起共进午餐,讨论一个共同的话题呢?这一切的基本前提是:处在一个可以提问的环境中(!)。
此外,要保持参与感。如上所述:保持事物记忆的最佳方式就是通过实践。然而,这并不意味着不值得保持系统性地关注左右两边,并随时了解那些不在(当前)工作范围内的新闻。现在有许多优秀的新闻简报。一个非常好的简报是由 DeepLearning.AI 发布的The Batch [2]。
我在一个由六位数据科学家组成的团队中工作。之前提到的观察同样适用于这里:即使在这个相对较小的团队中,也有人可能会受到冒名顶替症候群的影响。毕竟,总有某个人经验更丰富,或者至少在某个特定话题、方法或工具上有一些经验。
在我们的团队中,我们每两周举行一次实践社区会议。我们制定了两项政策:
1. 我们总是从高层次开始,确保所有成员都能跟上进度,并且不假设每个人都已经深入理解该主题。这样我们就可以进一步深入探讨。
2. 强烈建议大家集体探索一个尚未有人开发出深入专业知识的话题。
在上一次会议中,我们讨论了微调 LLM 与少量样本学习和提示语的对比。我们一起探索并尝试了各种微调方法。更重要的是,我们对业务问题获得了一系列宝贵的见解,帮助确定哪些机制可能更有效。我们带着许多好点子和进一步的研究任务离开了会议。这比对每个细节的深入了解更为宝贵。
最近,我在一个数据科学聚会上有了一个令人耳目一新的体验。
这些演讲者在物流行业工作,并开发了一个大语言模型(LLM)系统。目标是从带有附件的未结构化指令的电子邮件中提取信息,并将其转化为结构化的输出,以便基于这些输出触发货物的运输。
他们展示了自己的系统,包括 OCR 和不同的 LLM API 调用,系统部署在云环境中。随后,他们分享了当前的提示语(prompts)以及使用不同提示语和模型的历史尝试。这还包括与拟合优度指标(!)的比较。演讲最后提出了两个开放性问题。他们请求反馈并征求改进建议。同时,还展开了一个讨论,探讨通过 API 使用专有 LLM 是否会影响人工智能工程与数据科学之间的平衡。
我非常喜欢这一点。除了披萨和社交活动,聚会不就是这样的意义吗?创造双赢的局面,带着好心情和新想法回家。
有时,人工智能相关信息和新闻的洪流让人感到不知所措。越是想保持在前沿,越是会有这种感觉。然而,实际上不可能深入了解所有内容。幸运的是,目前还没有人发明出克隆技术。
我们生活在一个令人激动的时代。人工智能的量子飞跃正在发生,并等待着被用来造福社会。接触这些技术的障碍正在降低:专有模型正受到开源项目的挑战。论文和代码大多都可以获取。在线上,许多优秀的导师愿意分享他们的经验并教授知识,进一步减少了障碍。这使得许多人不仅能参与到人工智能的进步中,还能在其中发挥作用。成为这个伟大社区的一部分,是一件非常棒的事情。
这不应该是有压力的,而应该是充满喜悦的。终身学习的伟大之处在于:它永无止境。
保持冷静,继续前行。