更多数据还是更好的算法：最佳平衡点

原文：www.kdnuggets.com/2017/01/more-data-better-algorithms.html

作者：Erik Bernhardsson，CTO（首席巨魔官）betterdotcom

这篇博客文章数据集是新的服务器房间指出，一些公司筹集大量资金去获取真正专有的优秀数据作为竞争壁垒。因为一旦你拥有数据，你就能构建更好的产品，而没有人可以轻易复制（至少不便宜）。理想情况下，你会进入一个良性循环，即系统使用一旦开始，就会提供更多的数据，这使得系统更好，从而吸引更多用户……

随着数据量增加，机器学习模型的行为很有趣。如果你正在建立一个基于机器学习的公司，首先，你要确保更多的数据能带来更好的算法。

但这只是必要条件，而非充分条件。你还需要找到一个最佳平衡点。

在推荐系统领域（我在那里待了 5 年），算法在 100M 或 1B 数据点后基本会收敛，这并不罕见。这当然取决于你拥有多少项目。一些模型类在它们甚至尚未有用之前就会收敛，这种情况下显然更多的数据没有价值。如果你想了解更多，Xavier Amatriain 在Quora 上的一个优秀回答值得你查看。

无论如何，让我们简化这个问题。考虑一下某些算法的行为：

蓝色模型代表了在相对便宜的成本下能够获得良好数据的问题。例如，猫与狗的分类器不是一个有用的技术，因为获取这些训练数据的价值大约是$0。对于任何构建通用图像分类器的公司，我会对此感到担忧。或者，如果你正在构建一个包含 10k 项的推荐系统，可能用 10M 个评分已经足够。拥有 100B 个评分未必更有价值。
红色模型可能出现在你的数据来自不同分布或你的损失函数不符合产品需求的情况下。在这些情况下，更多的数据在某些时候会变得无用。如果你通过抓取网络文本来构建一个电影推荐系统，它可能会收敛到一个还不错但不够好的模型。（这里还有一个假设：也许收集被动数据来学习如何主动驾驶汽车是不够的？）
绿色模型是当你的问题可能需要如此巨大的数据量以至于不切实际。例如，构建一个可以解决世界上所有问题的通用问答服务，从机器学习的角度来看，如果你有无限的数据问题和答案，这并不难。但如果输入数据少于数 TB 或 PB，可能就会变得无用。如果我尝试构建一个虚拟助手，这将是我最大的担忧。

这里是一些我认为你可以建立数据集的甜蜜点，但这很难。困难是好的，因为这意味着一旦你完成，你就有了一道护城河：

难以记住？这里有一个我制作的实用表格

我认为这个总体思路是相当有效的。但它 100%正确吗？可能不是。是否过于简化？哦，是的，极端地简化了。

原始帖子。经许可转载。

个人简介: Erik Bernhardsson (@fulhack)，是 betterdotcom 的首席怪才官（CTO）。

前 Spotify，纽约机器学习聚会共同组织者，有时开源（Luigi，Annoy），博主，爸爸。

相关内容：

我们的前三个课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析技能