·发表于Towards Data Science ·8 分钟阅读·2024 年 8 月 26 日
--
图片由娜塔莉娅·维特凯维奇提供。
好的分块能带来好的 RAG。
分块、嵌入和索引是 RAGs(检索增强生成模型)的关键方面。使用合适的分块技术的 RAG 应用在输出质量和速度方面表现优异。
在构建 LLM(大语言模型)管道时,我们使用不同的策略来拆分文本。递归字符拆分是最流行的技术。它采用滑动窗口方法,窗口长度固定。然而,这种方法不能保证足够地容纳一个主题在其窗口大小内。此外,还有可能部分上下文会被分配到不同的分块中。
我喜欢的另一种技术是语义分割。语义分割在两个连续句子之间有显著变化时进行拆分。它没有长度限制,因此可以有许多句子,也可以只有很少的句子。但它更有可能准确捕捉到不同的主题。
即便是语义分割方法也存在问题。
如果彼此相距较远的句子在意义上更为接近,应该怎么处理呢?