Certifiably Robust RAG against Retrieval Corruption

关键词: RAG(Retrieval Augmented Generation),防御(Defense),先分离后聚合

RobustRAG 框架结构:

  1. Vanilla RAG pipeline:全部的 retrieved passages 一起送入 LLM 交互,获取 direct response,作为 result。
  2. RobustRAG pipeline:以原 retrieved passages phase 为单位独立送入 LLM 交互,分别获取各自的 response,然后进一个 aggregation,然后输出结果。
  3. Secure text aggregation 是核心,又分为两种安全文本聚合方法,分别是关键词聚合(Keyword Aggregation)和解码聚合(Decoding Aggregation)。

RobustRAG结构

两个聚合算法

关键词聚合: 用于在生成过程中从每个检索到的段落中提取关键词,并使用这些高频关键词来提示大语言模型(LLM)生成最终的响应。

为何重要: 按作者说这是第一个针对 RAG 的防御框架,一般都是攻击比较多。同时方法很简单,但也很有效。

Insights:

  1. 分离与聚合的思路在文本处理中似乎是一种不错的手段,包括完整的处理不好可以进行分离试试,单独的处理不好可以试试 assemble。
  2. 在安全层面上,分离(isolate)意味着安全隔离,即将原本会影响全部的因素,降低影响至局部,这似乎是一种不错的安全机制和思路。

主要参考文献: C. Xiang, T. Wu, Z. Zhong, D. Wagner, D. Chen, and P. Mittal, “Certifiably robust RAG against retrieval corruption,” May 24, 2024, arXiv: arXiv:2405.15556. doi: 10.48550/arXiv.2405.15556.

🐣 总结

🎯 研究问题:

大语言模型(LLMs)在检索增强生成(RAG)过程中易受到检索操控攻击,如何构建一个鲁棒的 RAG 框架来防御这些攻击?

🔎 研究背景:

RAG 利用外部知识库,通过检索相关的段落来改善大语言模型的输出,广泛应用于 AI 搜索引擎和定制化 AI 应用。然而,RAG 在检索过程中,如果被恶意段落操控,生成的回答可能会不准确,这引发了构建鲁棒 RAG 系统的需求。

🚀 研究方法:

提出了一种名为 RobustRAG 的防御框架,通过 " 隔离 - 聚合 " 策略,分别获取每个检索段落的模型响应,然后安全地聚合这些响应,设计了基于关键词和解码的安全聚合算法。

🐔 研究思路:

使用隔离策略使恶意段落只影响其自身的响应,通过安全的文本聚合技术确保最终输出的鲁棒性,并提供可证认证的鲁棒性分析方法,证明对于特定查询,即使攻击者能注入少量恶意段落,RobustRAG 依然能产生准确回答。

📺 主要内容:

  1. 介绍了 RAG 的背景及其易受检索操控攻击的弱点;

  2. 提出了 RobustRAG 框架,并详细介绍了两种安全聚合算法;

  3. 设计了一种认证鲁棒性的方法,形式化地证明了 RobustRAG 的鲁棒性;

  4. 在多个数据集和任务上评估了该方法的效果,并与其他方法进行比较。

🎉 研究结论:

RobustRAG 是第一个可以防御检索操控攻击的 RAG 框架,通过隔离 - 聚合策略实现有效且通用的鲁棒性,在不同任务和数据集上表现出显著的鲁棒性和良好的性能。

🗝️ 创新点:

  1. 提出了隔离 - 聚合策略,使恶意段落无法干扰其他有效段落的响应;

  2. 设计了基于关键词和解码的安全聚合算法;

  3. 提供了可证认证的鲁棒性,确保在给定威胁模型下的防御效果。

💩 研究局限:

  1. 主要集中于生成阶段的鲁棒性;

  2. 暂未处理复杂的多跳 RAG 任务;

  3. 为了实现鲁棒性,可能会牺牲部分清洁数据下的性能。

🐾 研究展望:

未来工作可以关注加强检索阶段的鲁棒性,分解复杂问题以应用 RobustRAG,并在尽可能减少清洁数据性能损失的情况下提升鲁棒性。此外,可以与先进的 RAG 方法结合,如自我批评和微调,进一步优化性能。