姓名:张钰 学号:21011210154 学院:通信工程学院
【嵌牛导读】Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection论文阅读笔记
【嵌牛鼻子】Deepfake人脸检测方法,基于单中心损失监督的频率感知鉴别特征学习框架FDFL,将度量学习和自适应频率特征学习应用于人脸伪造检测,实现SOTA性能
【嵌牛提问】本文对于伪造人脸检测的优势在哪里体现
【嵌牛正文】
转自:https://blog.csdn.net/qq_44149041/article/details/124929856
这幅图是样本在嵌入空间中的特征分布。左边是由softmax损失监督的学习特征分布,可以看出来,学习到的特征是广义可分的,但没有足够的区别性,因为softmax损失没有明确的约束类内的紧凑性和类间的离散性。
问题2:之前研究采用的都是固定的滤波器组和手工制作的特征,不足以从不同的输入 捕获到伪造的频率模式。
原理:频域中的不一致性可以作为重要的伪造线索。图3右边的这一列代表 某一频带内能量分布的可视化。可以看出来,尤其是在中频段和高频段,自然人脸和伪造人脸之间的差异非常明显。
AFFGM由数据预处理 和 AFIMB 组成:
数据预处理流程
首先,将输入的RGB图像转换为YCbCr颜色空间。然后对每个8×8块图像进行 二维DCT变换(这两步类似jpeg压缩)。 DCT变换后,所有图像块中同一频段的系数 按照原图像块的位置 组合成一个通道。最后把所有的通道组合在一起,正则化后作为AFIMB的输入。
经过预处理后的频域图像,既保留了所有频段的信息,也保留了原图像的结构信息,所以可以使用现有的神经网络直接从频域图像中提取特征.
自适应频率信息挖掘块AFIMB
作者根据经验设计了一个简单的网络提取频率特征,经过图4预处理后的数据首先通过一层具有三组3x3卷积 ,将来自Y、Cb、Cr三个不同通道的数据分别进行处理,然后再通过一个普通的3x3的卷积块和一个最大池层。之后为了增强特征,采用了一个通道注意块,由最大池层和两个线性层组成的,最后使用普通1x1卷积进一步提取与频率相关的特征。
文中提出的AFIMB以数据驱动的方法从不同的频段中提取差异性特征,避免了使用太多不全面的先验知识。跟固定滤波器组和手工特征相比,能够在频域更灵活地捕捉伪造线索。
是自然样本到中心点的欧式距离,
是篡改样本到中心点的欧式距离,由于欧氏距离与特征维数的算术平方根有关,所以为了便于设置超参数,距离的阈值设置为
。与中心损失类似,中心点C在每步迭代中不断更新。
(a)图是在softmax损失监督下 学习到的特征,表现为两个相邻边界的簇。
(b)图是三元组 +softmax损失,跟(a)对比可以看出来,三元组损失对特征分布影响不大。
(c)图是中心损失+softmax损失,特征的分布改变比较明显。但是,限制篡改人脸的类内紧凑性会在一定程度上导致过拟合。因此,性能增益非常小。
(d)图是 SCL + softmax损失,能够将自然人脸紧密地聚集起来,将分布不紧密的篡改人脸分离出来。通过与其他损失函数的对比,证明了本文的SCL优于其他损失。
在FF++数据集三个版本上,本文方法和之前人脸伪造检测方法的比较:
Xception和face-X射线是目前比较先进的基于图像的检测方法。在FF++数据集各种版本上,本文的方法在各个评估指标上都优于它们。而且还超越了,基于视频的双分支(two-branch)检测方法。通过对比表明了该框架的有效性和优越性。