·发布于 Towards Data Science ·9 分钟阅读·2024 年 7 月 31 日
--
近年来,语言模型的上下文窗口以指数级的速度增长。图由作者创建。
本文最初发布于 Art Fish Intelligence。
大型语言模型的上下文窗口——它们一次能处理的文本量——一直在以指数速度增长。
2018 年,像 BERT、T5 和 GPT-1 等语言模型的输入限制为最多 512 个 token。现在,到了 2024 年夏季,这一数字已经跃升至 200 万个 token(在公开可用的大型语言模型中)。但这对我们意味着什么呢?我们该如何评估这些日益强大的模型?
最近发布的 Gemini 1.5 Pro 模型可以处理最多 200 万个 token。但 200 万个 token 到底意味着什么呢?
如果我们估算 4 个单词大约等于 3 个 token,那么 200 万个 token 几乎可以容纳整个《哈利·波特》系列和《指环王》系列的内容。
(《哈利·波特》系列七本书的总字数为 1,084,625。 《魔戒》系列七本书的总字数为481,103。(1,084,625 +…