投毒后门防御阅读笔记，What Doesn‘t Kill You Makes You Robust (er) Adversarial Training against Poisons and Back-06世界杯葡萄牙-世界杯乒乓球赛_2014世界杯十佳球

投毒后门防御阅读笔记，What Doesn‘t Kill You Makes You Robust (er) Adversarial Training against Poisons and Back

2025-05-18 20:25:07 by admin 06世界杯葡萄牙

论文标题：What Doesn’t Kill You Makes You Robust (er) Adversarial Training against Poisons and Backdoors

论文单位：Department of Electrical Engineering and Computer Science,University of Siegen

论文作者：Jonas Geiping,Liam Fowl

收录会议：预印版

开源代码：未开源

那些杀不死你的东西会使你更健壮

抵御投毒和后门的对抗训练（防御）

简单总结

一个针对投毒和后门攻击的防御框架

以前的防御有两个缺点，不可以抵挡自适应攻击；只能针对特定攻击进行防御。

场景：防御方自行训练模型，拥有操控模型和训练数据的权限。

针对防御的攻击方法：大部分投毒和后门攻击算法

本文提出了一个针对各种不同类型攻击的防御框架，当然不是训练了一个防御模型就是万能的，简单来说，当防御者知道攻击者使用哪种方法来攻击，就可以通过对抗这种攻击方法从而达到非常好的防御效果。

该方法的实现，简单来说，分为两步。

第一步：选择一种数据投毒攻击方法，使可能带有触发器

△

\triangle_t

△t的目标图像和训练数据（通过

△

\triangle_p

△p投毒）的损失最小，得到

△

\triangle_t

△t和

△

\triangle_p

△p。理解：这里得到的

△

\triangle_p

△p是攻击最终需要得到的毒，在标准的攻击里，投毒后即完成攻击了；这里的

△

\triangle_t

△t应该是不需要优化的，默认的、人为添加的，可能是指定触发器，也可能什么也没有。这一步是为了模拟目标图像中毒的过程得到最毒的

△

\triangle_p

△p。

第二步：然后让训练数据

△

+\triangle_p

+△p还能正确分类（对抗训练的本质），让目标图像

△

+\triangle_t

+△t继续误分类（继续朝着错误的方向走下去），进行训练模型。

这两步反复交替，即可将最毒的

△

\triangle_p

△p加在训练数据上，仍能分类准确，得到非常鲁棒的模型。

在文中提到，训练对抗一个特定的代理攻击，例如gradient matching，对于其他的一些攻击来说，仍然可以防御成功。但是没有说全部，对几个比较先进的攻击都是防御成功的。

值得做的点（仅从本文出发）

对抗训练确实可以说是对抗攻击唯一一个鲁棒可靠的防御手段，它的变体的论文也是数不胜数，这条线做下去也是非常有趣的。之前看到的那篇输入感知的动态的后门攻击，不知道该篇的对抗投毒是否能够成功防御，需要实验证明一下。按照公式推导的话，我认为直接套用是防御不了的，需要对公式进行修改，可以给出一个更加通用的防御框架。

abstract

以前的防御都有下面至少一个缺点：

不可以抵挡自适应攻击不可以推广到不同的数据投毒威胁模型对抗训练及其变体是防御对抗攻击（推理时）唯一强壮的防御，作者扩展了对抗性训练框架，以防御（训练时）投毒和后门攻击。主要做法是：通过在训练期间制造毒药并将它们注射到训练批次中，使网络对投毒的影响脱敏。作者证明了这种防御可以应对自适应攻击，可以推广到各种威胁模型，并且比以前的防御带来更好的性能

1.introduction

现有的防御策略有三个主要缺点：

为了提升防御的效果会交换健壮性，简单来说，就是将测试的准确性交换到了现实世界从业者无法忍受的程度

只对特定的威胁模型具有鲁棒性，而不是对专门为规避防御而设计的自适应攻击

只适用于特定的威胁模型，而不能为实践者提供一个普遍适用的框架

作者提出了一种对抗性训练的变体，它利用对抗性中毒的数据来代替（测试时间）对抗性的例子。

作者表明，该策略既表现出改进的鲁棒性-准确性权衡，也表现出更大的灵活性，以抵御广泛的威胁，包括自适应攻击。

作者证明了该框架在防御一系列数据篡改威胁模型方面的有效性，包括定向数据投毒和后门触发攻击，这两种攻击都是从迁移学习中进行的，在大规模数据集上预先训练的大型模型对可能中毒的少量数据进行了微调

作者将这个防御在特征空间中的影响可视化，并与一系列相关的防御策略进行比较。

2.related work