因“换脸”功能大火后,与情色相关的Deepfake应用被全网禁用。但是,用来训练这些色情算法的非法“裸图”数据集,还在全球的色情社区流传,并且或许将永远存在下去……
四年前,刚刚18岁的Jane作为受害者之一,在威逼利诱下,被迫参与拍摄了一个色情图集。她和其他21名女性的裸照和色情视频在之后在一个名叫“少女色情”(Girls Do Porn)的成人网站被公开。
拍摄方是一家捷克的色情制作公司Czech Casting,在被告发后,该公司被警方指控贩运人口及强奸罪,被判决向其视频中出现的22名女性支付近1300万美元,创始人目前仍是FBI头号通缉犯,这些照片也成为了非法色情素材被禁用。
FBI通缉人Michaels Pratt虽然这个公司已经被关停,但Jane没有想到的是,她的噩梦远没有结束。这些被迫拍下的裸照正作为色情数据集,成为了最近一种新型技术deepfake porn的训练”养料”,在网络上继续流传存在。
一名博士生的“技术创新”项目:“我只是觉得这很酷”
一键脱衣、直接换脸,关于deepfake你肯定不陌生。
就像“不存在的人(thispersondoesnotexist.com)”这类项目一样,deepfake这一机器使用机器学习算法和数千张人脸图片来生成不存在的人的真实感图像,该数据集用于生成真实和不真实的裸女图像,只不过最终生成的图片看起来不像任何人。
某个人上传数据集到互联网上,可以将其插入“deepfake色情片”训练集中,其他人则可以使用该数据集来创建“完全由AI生成的色情”。
不同于利用社群网路中的私人照片,这次 Deepfake造假利用的是现有的成人色情作品。创建者认为在原有色情作品上,利用Deepfake 生成不存在的人脸进行二次创作可以避免法律上的惩罚和道德上的谴责。
但是,这也间接促成了相关裸照数据集被多次激活使用,并且使用人并不介意这些照片是否是合法的。
在为Czech Casting拍摄色情照片的第四年,Jane在一个论坛上发现了自己的老照片数据集。这个论坛由一名博士生开设,以炫耀他最新的个人AI项目:算法生成的色情作品。
这个博士生给自己的算法生成器取了个名字——“GeneratedPorn”,并命名为r / GeneratedPorn subreddit来发布有关该技术的信息(下称“ GP”)。
在公开信息中,这个项目的创始人表示,他开启这个项目只是因为想要提高自己的机器学习技能。与许多deepfake制作的色情产品不同,在项目最初,GP制作的图像并不希望“以假乱真”,也不想骗过任何人让观众觉得这是真实色情。因为GP产出的作品看起来几乎不是人类,更不用说像特定的人了。
但是就像很多早期的deepfaker们一样,作品的真实性也在迅速提高。GP在过去几周内发布了几项实验,这些实验以越来越精确的描绘裸露的人体,甚至是一些略带动画的图像显示,这也证明了,“完全由AI产生的色情”并不是不可能的。
“在我看来,这一切都是为了学习“很酷的技术”,但是后来我最终转向色情作品,因为我认为这是一个很酷的概念,尤其是在看完相关影像之后。”
为了制作视频,GP使用了来自网络的数据集对算法进行了训练,其中就包括了主要由Czech Casting提取的图像组成的数据集。这些数据集是托管的,可以从相关文件共享站点免费下载,是由用户尝试使用Deepfake和其他形式的算法生成的图像进行编译的。GP在其中一个文件共享网站上找到了Czech Casting数据集。GP创作者表示如果他不这样做,他会写一个网络抓取工具来收集来自Czech Casting的图像。
Czech Casting数据集的经过审查的样本AI打造的匿名色情,这真的没有伤害任何人吗?
要创建通过算法生成的完整的裸露身体的视频,需要许多真实、裸露的人的图像和视频,因此,Czech Casting图片数据集几乎是为该算法任务量身定制的资源。
GP说:“人们之所以选择这样的数据源,主要是因为使用了生成对抗模型(GAN),试图为要尝试生成的对象类别学习图像的一般结构。”
“如果图像在结构上相似,则模型可以了解有关物品类别的更精细/颗粒细节的信息,例如脸上的酒窝或雀斑。这可以带来更高的质量结果。”GP向Motherboard发送了他正在使用的数据集的样本,其中还包括Girls Do Porn视频的图像。GP的其他数据集还包括从互联网上抓取的其他裸体图像,包括其他色情网站,社交媒体以及用户发布自拍照的子目录,例如r / roastme,人们在其中发布图像的子目录等。
那么,将这些非法数据集作为训练数据使用是合法行为吗?
匿名使用这些数据集的人说,由于他们在技术上生成的最终算法生成的图像不是真实的人,因此不会伤害任何人。
更有甚者认为,自己的创作是朝着未来迈出的关键一步。在未来,色情将根本不需要人类的色情表演者。
在r / MachineLearning subreddit上的一篇文章中解释了他的算法生成的色情作品是如何工作的,GP在解释中途停顿了一下,以解决“潜在的道德问题”。他写道:“我不知道该怎么做,开启这个项目的初衷是我想创造一个很酷的东西……我打算制作一个只供“粉丝”可见的社区,并提供个性化的“AI生成的裸照”来与人们交流。” “但是有一些我认识的人对此想法不太赞成,并说这是对一些人的伤害。因此,我决定不走这条路,以避开道德上问题。”
他在那篇文章中还指出,训练数据集的道德话题是他关注的。他写道:“是我们正在训练的图像涉及了道德伦理问题,还是图像中的人员受到了某种形式的利用?”但这些考虑并没有阻止GP在社交媒体平台上公开发布该项目,大多数内容通过Twitter,Facebook,Reddit,OnlyFans等平台以及XVideos和Pornhub之类的站点在Internet上传播了出去。
McAllister Olivarius律师事务所的律师HonzaČervenka专门从事“复仇色情”和相关技术方面的工作,并且一直在追踪该捷克最大的色情公司Netlook所拥有的Czech Casting案。他在接受vice采访中表示,这种图像是有害的,因为它们是通过算法运行并“匿名化”的。 他说:“这是一门疯狂的科学,它使Czech Casting施暴者的受害者再次受害。”
“简直不公平,仿佛我的自由被剥夺了,”Jane说,他们(GP)为Czech Casting这类非法图片拍摄方提供了一个新的使用场景。
目前 Reddit、XHamster 等多个网站已经将该软体应用封杀,并强调Reddit 网站政策禁止非自愿色情内容的分享和传播,包括Deepfake作品。
相关报道:
https://www.youtube.com/watch?v=Ub0rSFBoSdw&feature=youtu.be
https://www.vice.com/en/article/akdgnp/sexual-abuse-fueling-ai-porn-deepfake-czech-casting-girls-do-porn
https://www.vice.com/en/article/bjye8a/reddit-fake-porn-app-daisy-ridley
原标题:《AI色情创作算法亟需“养料”,非法裸图数据集“重生”》