您好、欢迎来到现金彩票网!
当前位置:手机棋牌游戏平台 > 伪造算法 >

人工智能图像伪造定位算法基于卷积神经网络的摄像头图像伪造定位

发布时间:2019-06-27 02:47 来源:未知 编辑:admin

  摘要:相机指纹是许多图像取证任务的宝贵工具。 一个众所周知的例子是光响应非均匀性(PRNU)噪声模式,一种功能强大的设备指纹。 在这里,为了解决图像伪造定位问题,我们依赖于噪声印刷,这是最近提出的基于CNN的相机模型指纹。 CNN经过训练以最小化相同模型补丁之间的距离,否则最大化距离。 因此,噪声印记考虑了与模型相关的工件,就像PRNU考虑了与设备相关的非均匀性一样。 然而,与PRNU不同,它仅受到高级场景内容残差的轻微影响。 实验表明,基于噪声印刷的伪造定位方法比基于PRNU的参考方法有所改进。索引术语 - 图像取证,PRNU,卷积神经网络。

  介绍:随着强大的媒体编辑工具的广泛传播,在过去几年中伪造图像和视频变得更容易和容易。通常用于支持虚假新闻的操纵视觉内容代表了从政治,新闻到司法等许多生活领域的日益严重的威胁。为了应对这种威胁,最近提出了大量用于图像伪造检测和定位的方法[1]。

  在分析图像中利用相机伪像的监督方法[2],[3],特别是那些依赖于PRNU模式[4]的方法,已经显示出许多法医任务的巨大潜力。由制造过程中产生的传感器缺陷引起的PRNU将每张照片单独地链接到获取它的设备,因此可以被视为一种设备指纹。基于PRNU的方法在源识别和图像伪造检测方面表现出非常好的性能[4] - [9]。必须提前准确地估计相机PRNU图案,这需要相机本身的可用性或从其获取的一定数量的照片(通常为100-200)。在测试时,将该参考图案与从分析中的图像提取的单图像PRNU估计进行比较。对于摄像机识别,比较在整个图像上进行。相反,对于伪造检测和定位,使用基于滑动窗口相关的过程。在存在伪造的情况下,缺少参考PRNU,并且观察到低相关性。

  理想情况下,此过程允许人们准确地检测和定位对被测图像的所有攻击。在实践中,在任何单个图像中发现的PRNU迹线表示强噪声(场景残差,相机伪像)中的非常弱的信号,这使得整个过程非常不可靠。为了改善信噪比,使用合适的去噪滤波器去除高级场景内容(在该上下文中被视为噪声),获得表示期望的单图像PRNU估计的噪声残差。然而,由于去噪滤波器的缺陷,一些场景内容在噪声残留中泄漏,在暗,均匀或非常纹理的区域中引起误报警。除了使用最先进的去噪滤波器[10],[11]之外,还提出了许多策略来解决这个问题。在[5]中,预测器用于识别潜在的麻烦区域并在局部调整统计测试,而在[12]中,通过选择性衰减小波系数来减少场景细节的干扰。

  除了场景残差之外,另一个噪声源由所谓的非独特伪像[13]代表,这些伪像是摄像机模型的特征,而不是单个设备的特征。这种伪像例如通过JPEG压缩或CFA插值引起,并且由空间周期性图案表征。同样,已经提出了各种策略来消除它们[5],[14]。

  但是,人们应该记住,估计PRNU本身并不是目标,而是完成法医任务的手段。与模型相关的工件是否真的妨碍了这些任务?否则他们可以被利用来提高绩效?从信息论的角度来看,答案是显而易见的:应该考虑所有可用的信息。基于这种思路,在[15]中,我们提出了一种新方法来识别相机模型轨迹并将其用于多媒体取证。与专注于紧凑特征的现有文献不同,我们提取类似PRNU的相机模型指纹,称为噪声印刷,其以图像尺寸图案的形式显示非独特的伪像(参见图1)。通过基于暹罗残差的卷积神经网络有效地去除场景内容,最终获得受弱噪声影响的强烈模式,这允许由于局部图像处理而容易(甚至视觉)检测和定位异常。

  在[15]中,我们开发了一种完全盲目的基于噪声印记的伪造定位技术,仅对图像残差(单图像噪声印刷估计)起作用,没有边信息。在这里,我们在监督设置中考虑相同的问题。给定合适的图像训练集,建立噪声印记的可靠估计,并以类似PRNU的方式使用以发现分析中的图像的残差中的异常。实际上,当图像的某个区域被篡改时,其噪声印记会被扰动,即用新的(拼接),强烈修改(旋转,调整大小),甚至删除(修复)替换,这样就可以检测到并将攻击本地化。值得提醒的是,噪声印迹仅包含PRNU本身的微弱痕迹,因此它不是特定于器件的。因此,它不应被视为PRNU的替代品。另一方面,噪声印刷具有比PRNU图案高得多的信噪比,这一特性保证了更好的性能并允许其应用于更具挑战性的情况。

  在本文的提醒中,我们提供了一些关于噪声印记的更多细节,然后描述了基于噪声印刷的伪造定位程序,最后讨论了实验结果并得出结论。

  在[15]中,我们设定了提取类噪声图像的目标,称为噪声印刷,其作为相机模型指纹,非常类似于PRNU图案可以被视为设备指纹。原则上,这可以通过简单地保持噪声残差而不去除非唯一伪像来获得。然而,在实践中,这种残余物不具有所需的性质,因为它遭受与PRNU非常相同的问题,这是由高电平信号的显着泄漏引起的。因此,我们设计了一个基于深度学习的新系统,专门致力于我们的目标。

  为了深入了解我们的设计选择,让我们从最终目标开始。我们的系统必须在输入中接受通用图像并在输出中提供残差图像,噪声印记,具有与输入相同的尺寸并且仅包含具有其自然空间分布的相机模型特定特征。该任务提醒基于残差的降噪器,其提取给定输入图像的加性高斯噪声分量,从而去除高级内容。通过在CNN的噪声残余输出和真实噪声模式之间反向传播误差来训练这种降噪器。然而,在我们的问题中,没有真正的参考可用于训练,因为相机模型的理想噪声印刷是未知的。

  尽管如此,我们知道由相同相机模型获取的图像具有相同的噪声印记。我们在训练阶段利用这些信息,使用成对的图像,并行提取它们的残差,并计算它们的距离(均方误差)。当该对来自相同模型时,错误通过网络反向传播以减少残差之间的距离。相反,当图像来自不同模型时,使用反向传播来增加剩余距离。因此,它就像考虑相同的双网络,并行工作。每一个都使用另一个双胞胎的输出以及相同/不同的标签,以使其权重适应收敛。暹罗网络的想法在深度学习中并不新鲜。通常,每个双网提取低维向量(嵌入),其总结输入,保持特定任务的相关信息。主要目标是对双输出进行低复杂度的比较。然而,在我们的案例中,目标不是降低复杂性,而保留空间信息非常重要。因此,我们的网必须保留图像大小和空间关系。

  转向实际实现,我们初始化网络(理想情况下,连体网)作为[16]中针对AWGN(加性高斯白噪声)图像去噪的CNN降噪器。事实上,删除场景内容是我们目标的合理起点。限制培训的复杂性,并确保灵活性w.r.t.输入大小,我们处理小图像补丁,而不是整个图像。因此,我们为网络提供大量配对补丁,当它们引用相同的相机模型和相同的空间位置时标记为+1,否则标记为1。对空间位置的约束对于保存珍贵的空间信息是必要的。实际上,即使单像素移位也会严重影响残差的局部统计。然后计算两个配对补片的CNN输出之间的距离。在损失函数中,具有负标签(不同模型和/或不同位置)的对受到惩罚。因此,在收敛时,网络应该为正样本提取相同的残差,否则提取不同的残差。值得强调的是,网络一劳永逸地训练,它可以处理训练集内外的任何摄像机,而不是特定的实验或任务。因此,一旦训练结束,噪音指标就是确定性地与原始图像相关。

  有关培训阶段的详细信息,我们请感兴趣的读者参考[15]。在这里,我们只提到了两个用于提高训练效率的关键解决方案,[17]中提出的方法是为每个n-patch小批量获得O(n2)而不是O(n)样本,以及基于距离的逻辑(DBL) [18]中提出的损失。

  在[15]中,我们通过查找图像残差中的异常来执行没有边信息的伪造定位。在这里,我们考虑一个监督设置,假设有一个参考噪声印记。本地化程序在图2中概述,并遵循与基于PRNU的方法一起使用的经典管道。我们依赖于由分析中的图像的相同相机拍摄的一组原始图像。它们的残差被平均以获得干净的参考,即对摄像机噪声印度的可靠估计,其中高级场景泄漏以及PRNU的痕迹大部分被去除。图1显示了单图像估计,其中可以容易地发现高级内容的痕迹(参见图4中的骆驼图像),以及几乎无噪声的200图像估计。然后使用欧几里德距离作为相似性度量,在滑动窗口模态中将该参考与被测图像的残差进行比较。像往常一样,在这些情况下,窗口大小会影响分辨率和可靠性之间的权衡。这里使用64 64窗口。

  然后,像素方向距离场可以被显示为热图,其可以被提供给最终用户以进行视觉检查,或者经过适当的后处理以提取二元决策图。大距离(热图中的红色)表明原始的噪声印记已经被破坏,即被删除(修复),被另一个相机的噪声印记(拼接)所取代,甚至是相同的相机,但经过一些几何失真(调整大小,旋转,甚至简单的位移)。因此,即使是垂直和水平方向上的位移都是噪声印刷基本周期的倍数,也可以发现刚性的复制移动。然而,值得强调的是,只有当测试图像与原始参考图像对齐时,这种方法才有意义。如果测试图像在几何上失真或受到重压缩,则参考文献也应经历相同的处理链以提供正确的再参考噪声印记。

  实验结果:用于提取所有噪声印记的网络在各种模型上进行训练。为此,我们使用各种可用的数据集以及其他一些私人摄像机创建了一个大型数据集,包括摄像头和智能手机。详细地,我们使用了德累斯顿数据集中的44个摄像机[19],

  32个来自Socrates数据集[20],32个来自VISION [21],17个来自我们的私人数据集,共有来自70个不同型号和19个品牌的125个单独相机。在实验中,该数据集分别在包括100和25个摄像机的训练集和验证集中。所有图像最初都是JPEG格式,品质因数在[96-99]范围内。使用[16]的去噪网络的权重初始化网络。在训练期间,每个小批量包含从25个不同摄像机的100个不同图像中提取的200个48个像素的补丁。在每批中,有50套,每套由4个贴片组成,具有相同的相机和位置。使用ADAM优化器执行训练;使用验证集选择超参数(学习速率,迭代次数和正则化项的权重)。

  对于图像伪造定位,我们将结果与[4](Lukas2006)中提出的基于PRNU的方法以及依赖于相机模型伪像的基于特征的方法进行比较。

  在图3(左)中,当使用200个图像估计参考噪声印记,PRNU或[2]的统计量时,我们在接收器操作曲线(ROC)方面显示像素级定位结果。所提出的方法比Lukas2006以及Verdoliva2014提供了大的增益。表1中报告的合成结果,在曲线下面积(AUC)和F-测量方面,完全证实了该分析。对于F-measure,我们使用了所有数据集的最佳阈值和(更有利于性能)每个图像的最佳阈值(F1-oracle)。在所有情况下,所提方法的性能增益都很明显。通过目视检查图4所示的例子可以得出同样的结论,其中考虑了非常不同类型的操作(拼接,刚性复制 - 移动,修复)。请注意,所有图像都具有本机相机JPEG质量,并且不执行进一步压缩。基于噪声印刷的方法始终表现出非常好的性能,清晰地突出了操作而没有误报。

  正如我们多次评论的那样,噪声印刷似乎比PRNU模式噪声更小。因此,与基于PRNU的方法不同,我们可能期望性能仅仅依赖于参考图像的数量。为了研究这一点,我们分别仅使用50,10和1个参考图像重复了之前的实验。相应的ROC(也在图3中示出)确认了噪声印刷的稳健性。虽然当使用少于50个图像时其他方法的性能大大受损,但是即使使用单个参考图像,所提出的方法也相当好地工作,并且优于具有200个图像的Lukas2006。在上一个实验中,我们考虑了一个更具挑战性的情况,即图像具有不同的格式,因此与我们的数据集不完全一致。我们从Korus等人使用的数据集中得到一些例子。 [9]。这些图像取自4种不同的相机型号(佳能60D,索尼A57,尼康D7000和尼康D90),并采用不同形式的操作进行攻击。它们采用原始格式,因此不存在JPEG伪像,与训练有素的CNN相比存在明显的错位。我们使用此数据集提供的PRNU,估计尼康和佳能的200多张自然图像,以及索尼的20多张平面图像。对于噪音印刷和

  [2]我们只使用了53张可用的原始图像,注意避免在训练和测试中使用相同的背景。正如预期的那样,Lukas2006比以前的情况更好,因为图像没有被压缩,而所提出的方法的性能由于未对齐而受损。然而,即使在这种危急情况下,基于噪声印刷的方法仍然为伪造本地化提供了有价值的提示。

  结论:我们通过图像残差和相机指纹的滑动窗口比较来执行图像伪造定位。 与最近的文献不同,我们不使用PRNU指纹,而是通过经过适当训练的Siamese CNN提取的新型相机模型指纹,称为噪声印刷。 实验表明,基于噪声印刷的方法在很大程度上优于基于PRNU的基线,并且即使在非常少量的图像上估计指纹时也能保持非常好的结果。 总体而言,在监督和盲目设置中,噪声印迹似乎具有很大的多媒体取证分析潜力。

http://lsm-systems.com/weizaosuanfa/210.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有