深度造假藏不住！研究人员识别了人工智能生成视频的“指纹”

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2024年04月29日 来源：AAAS

编辑推荐：

　　根据德雷塞尔大学(Drexel University)的一项新研究，目前检测被操纵的数字媒体的方法将无法有效对抗人工智能生成的视频;但机器学习方法可能是揭开这些合成产物真面目的关键。

今年2月，OpenAI发布了由其生成式人工智能程序Sora制作的视频。这些通过简单文本提示生成的逼真内容，是企业展示人工智能技术能力的最新突破。它还引发了人们对生成式人工智能的担忧，即它有可能大规模地创造误导性和欺骗性的内容。根据德雷塞尔大学(Drexel University)的一项新研究，目前检测被操纵的数字媒体的方法将无法有效对抗人工智能生成的视频;但机器学习方法可能是揭开这些合成产物真面目的关键。

在今年6月IEEE计算机视觉和模式识别会议上发表的一篇论文中，来自德雷克塞尔工程学院多媒体和信息安全实验室的研究人员解释说，尽管现有的合成图像检测技术迄今未能识别人工智能生成的视频，但他们已经成功地使用了一种机器学习算法，该算法可以通过训练提取和识别许多不同视频生成器的数字“指纹”。比如Stable Video Diffusion, Video- crafter和Cog-Video。此外，他们已经证明，在研究了他们的视频中的几个例子后，该算法可以学习检测新的人工智能生成器。

德雷塞尔大学工程学院副教授、MISL主任马修·斯塔姆博士说:“在有一个好的系统来检测坏人制作的赝品之前，这种视频技术可能会被发布，这让人有点不安。”“负责任的公司会尽最大努力嵌入标识符和水印，但一旦这项技术公开可用，那些想用它来欺骗的人就会找到方法。这就是为什么我们正在努力通过开发技术来从媒体特有的模式和特征中识别合成视频，从而保持领先于他们。”

Deepfake侦探

十多年来，斯塔姆的实验室一直积极致力于标记经过数字处理的图像和视频，但该组织在去年尤为忙碌，因为编辑技术正被用来传播政治错误信息。

直到最近，这些操作都是照片和视频编辑程序添加、删除或移动像素的产物;或减慢，加快或剪辑视频帧。每一次编辑都会留下独特的数字面包屑痕迹，斯塔姆的实验室开发了一套经过校准的工具来发现和跟踪它们。

该实验室的工具使用了一种称为约束神经网络的复杂机器学习程序。该算法可以以类似于人脑的方式，在图像和视频的亚像素级别上学习什么是“正常”，什么是“不寻常”，而不是从一开始就搜索特定的预先确定的操纵标识符。这使得该程序既擅长识别来自已知来源的深度伪造，也擅长识别由以前未知程序创建的深度伪造。

神经网络通常在数百或数千个示例上进行训练，以获得对未经编辑的媒体和已被操纵的媒体之间的差异的非常好的感觉-这可以是相邻像素之间的变化，视频中帧间距的顺序，文件本身的大小和压缩。

新的挑战

斯塔姆说:“当你制作图像时，相机中的物理和算法处理引入了各种像素值之间的关系，这与ps或人工智能生成图像时的像素值非常不同。”“但最近我们看到了文本到视频生成器，比如Sora，它可以制作出一些非常令人印象深刻的视频。这是一个全新的挑战，因为它们不是由相机制作或ps出来的。”

去年，一则支持佛罗里达州州长罗恩·德桑蒂斯(Ron DeSantis)的竞选广告似乎展示了前总统唐纳德·特朗普拥抱和亲吻安东尼·福奇(anthony Fauci)是第一个使用生成人工智能技术的人。这意味着该视频不是编辑或从其他视频中拼接而成，而是由人工智能程序完整创建的。

Stamm指出，如果没有编辑，那么标准线索就不存在——这给检测带来了一个独特的问题。

斯坦姆说:“到目前为止，法医检测程序通过简单地将其视为一系列图像并应用相同的检测过程，对编辑过的视频有效。”“但是对于人工智能生成的视频，没有证据表明图像对帧进行了处理，因此为了使检测程序有效，它需要能够识别生成人工智能程序构建视频的方式留下的新痕迹。”

在这项研究中，研究小组测试了11种公开的合成图像探测器。这些程序在识别被操纵的图像方面都非常有效，准确率至少达到90%。但当面对由公开可用的ai生成器、Luma、VideoCrafter-v1、CogVideo和Stable Diffusion Video制作的清晰视频时，它们的性能下降了20-30%。

他们写道:“这些结果清楚地表明，合成图像探测器在检测合成视频方面遇到了很大的困难。”“这一发现在多个不同的探测器架构中都是一致的，当探测器被其他人预训练或使用我们的数据集进行再训练时也是如此。”

可信的方法

该团队推测，基于卷积神经网络的检测器，如其MISLnet算法，可以成功地对抗合成视频，因为该程序被设计为在遇到新示例时不断改变其学习。通过这样做，就有可能在它们进化的过程中识别新的法医痕迹。在过去的几年里，该团队已经证明了MISLnet在识别使用包括人工智能工具在内的新编辑程序处理过的图像方面的敏锐性，因此将其与合成视频进行测试是很自然的一步。

“我们已经使用CNN算法来检测被操纵的图像以及视频和音频的深度伪造，并取得了可靠的成功，”MISL的博士生、该论文的合著者Tai D. Nguyen说。“由于它们能够适应少量新信息，我们认为它们也可以成为识别人工智能生成的合成视频的有效解决方案。”

在测试中，该小组使用用于训练图像检测器的相同测试数据集训练了包括MISLnet在内的八个CNN检测器，其中包括四个公开程序制作的真实视频和人工智能生成的视频。然后，他们对一组视频进行了测试，其中包括一些由生成式人工智能程序创建的视频，这些视频尚未公开:Sora、Pika和VideoCrafter-v2。

通过从每个视频的单帧中分析一小部分(一个补丁)，CNN检测器能够在颗粒级别上了解合成视频的样子，并将该知识应用于新视频集。每个程序识别合成视频的效率都超过93%，其中MISLnet表现最好，达到98.3%。

当对整个视频进行分析时，这些程序的效率略高，方法是从视频的不同帧中随机抽取几十个补丁，并将其作为一个小型训练集来学习新视频的特征。使用一组80个补丁，程序的准确率在95-98%之间。

经过一些额外的培训，这些程序在识别用于制作视频的程序方面也有90%以上的准确率，该团队认为这是因为每个程序使用独特的专有方法来制作视频。

研究人员写道:“视频是通过各种各样的策略和生成器架构生成的。”“由于每种技术都有重要的痕迹，这使得网络更容易准确地区分每种发电机。”

快速学习

尽管在没有接触过至少一小部分视频的情况下，这些程序在面对检测全新生成器的挑战时遇到了困难，但通过少量微调，MISLnet可以快速学会识别，准确率达到98%。这种被称为“几次学习”的策略是一种重要的能力，因为每天都有新的人工智能技术被创造出来，所以检测程序必须足够灵活，以最少的训练来适应。

“我们已经看到人工智能生成的视频被用来制造错误信息，”斯塔姆说。“随着这些程序变得越来越普遍，越来越容易使用，我们可以合理地预计，合成视频将被淹没。虽然检测程序不应该是防止错误信息的唯一防线——信息素养的努力是关键——但拥有验证数字媒体真实性的技术能力当然是重要的一步。”

热点排行

新闻专题

联系信箱：

粤ICP备09063491号