在传统RAG框架中,检索单元通常较短,如DPR使用100字维基百科段落,导致检索器在大型语料库中搜索小单元,而阅读器从这些短单元生成答案,这种设计可能导致次优性能。短单元可能丢失上下文信息,增加检索阶段引入硬负样本的可能性,且阅读器可能无法充分利用LLMs的最新进展。为了解决这些问题,提出了LongRAG框架,包含长检索器和长阅读器。LongRAG处理整个维基百科为4K标记单元,比之前长30倍,显著减少单元总数,减轻检索器负担,提高检索性能。在NQ和HotpotQA数据集上,LongRAG使用少量顶级单元实现强大检索性能,减少检索到硬负样本的可能性,保持语义完整性。LongRAG将检索到的单元输入到长上下文LLM中进行零样本答案生成,无需训练即可在NQ和HotpotQA上达到与完全训练的SoTA模型相当的性能。此外,在非维基百科数据集Qasper和MultiFieldQA-en上,LongRAG将每个文档作为单个长单元处理,提高了F1分数。研究为RAG与长上下文LLMs结合提供了未来路线图的见解。
大约 16 分钟
检索增强生成(RAG)是一种结合私人文档知识库与生成问答(Q&A)系统的方法。随着文档语料库规模的扩大,RAG 的准确性面临挑战,其中检索器的作用至关重要,它通过提取最相关文档为大型语言模型(LLM)提供上下文。本研究提出了“混合 RAG”方法,结合语义搜索技术和混合查询策略,包括稠密向量索引和稀疏编码器索引,以改善检索结果。该方法在信息检索(IR)数据集如NQ和TREC-COVID上设定了新基准,并在生成问答数据集如SQUAD上展示了超越微调性能的卓越结果。关键词:RAG,检索器,语义搜索,稠密索引,向量搜索。
大约 8 分钟
高级RAG,原文:Florian June – Medium
大约 75 分钟
切分设置
chunk_size=1024
,over_lap=100
大约 3 分钟
[官方文档]:LlamaIndex 🦙 v0.10.17
大约 36 分钟