文本到图像的人工智能:强大的，易于使用的技术，用于制作艺术和伪造大英百科全书yabo亚博网站首页手机

孟德尔第三方内容占位符。分类:地理&旅游、健康及安培;医学、技术和科学 — 大英百科全书公司/帕特里克yabo亚博网站首页手机·奥尼尔·莱利

本文转载自谈话在创作共用许可下读了原文，该书于2022年12月5日出版。

在最近发布的文本-图像人工智能图像生成器中输入“20世纪80年代，泰迪熊在月球上进行新的人工智能研究”，只需几秒钟，复杂的软件就会生成一张非常相关的图像。

合成媒体的这一最新趋势似乎只受你的想象所限，它让许多人感到高兴，也启发了其他人，但也让一些人感到恐惧。

谷歌，研究公司OpenAI和人工智能供应商稳定的人工智能两家公司是否都开发出了强大到足以让一些观察人士质疑的文本到图像的图像生成器人们将能够相信照片记录．

作为一个计算机科学家擅长图像取证在美国，我一直在思考这项技术:它能做什么，每个工具是如何向公众推出的，以及随着这项技术继续其弹道轨迹，我们可以学到什么教训。

对抗的方法

虽然他们的数字前兆最早的人造图像出现在1997年，也就是五年前。在其最初的化身中，所谓的生成对抗网络(GANs)是合成人物、猫、风景和其他任何图像的最常用技术。

GAN由两个主要部分组成:生成器和鉴别器。每一个都是一种大型神经网络，它是一组相互连接的处理器，大致类似于神经元。

生成器的任务是合成一个人的图像，它从随机分类的像素开始，并将此图像传递给鉴别器，判别器决定是否可以将生成的图像与真实的人脸区分开来。如果可以，鉴别器向生成器提供反馈，生成器修改一些像素并再次尝试。这两个系统在一个对抗循环中相互竞争。最终鉴别器无法将生成的图像与真实图像区分开来。

Text-to-image

正当人们开始应对gan生成的深度造假(包括显示某人做了或说了一些他们没有做的事情的视频)的后果时，一个新的玩家出现了:文本到图像的深度造假。

在这个最新的版本中，一个模型被训练在大量的图像集上，每个图像都配有简短的文字描述。该模型逐步破坏每张图像，直到只剩下视觉噪声，然后训练神经网络来逆转这种破坏。重复这一过程数亿次，该模型学会了如何将纯噪声转换为来自任何标题的连贯图像。

虽然GANs只能创建一般类别的图像，但文本到图像合成引擎更强大。他们几乎能够创造任何图像，包括包括人与物体之间的相互作用的图像，这些图像具有特定和复杂的交互作用，例如“日落时分，美国坐在海滩上的篝火旁焚烧机密文件的总统”。

OpenAI的文本转图像图像生成器DALL-E在互联网上风靡一时公布了2021年1月5日。该工具的测试版是可用到2022年7月20日达到100万用户。世界各地的用户已经找到了似乎无穷无尽的方法来提示DALL-E，屈服了令人愉快，奇异和幻想的图像．

然而，从计算机科学家到法律学者和监管机构，许多人都在思考这项技术可能被滥用的问题。深度造假已经被使用过制作未经同意的色情作品，进行小型和大型欺诈，并推动虚假信息运动。这些更强大的图像发生器可能会给这些滥用增加航空燃料。

三种图像生成器，三种不同的方法

意识到潜在的滥用，谷歌拒绝发布其文本转图像技术。OpenAI在最初只向几千名用户(包括我自己)发布技术时，采取了一种更开放、但仍然谨慎的方式。他们还在允许的文本提示上设置了护栏，包括禁止裸体、仇恨、暴力或可识别的人物。随着时间的推移，OpenAI扩展了访问权限，降低了一些障碍，并增加了更多的功能，包括语义修改和编辑真实照片的能力。

稳定AI采取了不同的方法，选择了一个完整的版本他们的稳定扩散，没有护栏可以合成什么。在回应对潜在滥用的担忧时，该公司创始人伊马德·穆斯塔克(Emad Mostaque)表示，“最终，人们有责任决定他们如何使用这项技术是否合乎道德、道德和合法。”

尽管如此，稳定扩散的第二个版本删除了渲染NSFW内容和儿童图像的能力，因为一些用户创建了虐待儿童的图像。在回应审查的呼吁时，Mostaque指出，因为Stable Diffusion是开源的，所以用户是开源的可以自由地重新添加这些功能由他们自行决定。

精灵从瓶子里出来了

不管你对谷歌或OpenAI的方法有什么看法，Stability AI认为他们的决定在很大程度上无关紧要。在Stability AI宣布开源后不久，OpenAI降低了生成可识别人物图像的门槛。当涉及到这种类型的共享技术时，社会受最低公分母的支配——在这种情况下，稳定AI。

Stability AI宣称其开放的方式将强大的人工智能技术从少数人手中夺走，把它交到多数人手中．我怀疑，很少有人会如此迅速地为一位传染病研究人员发表了一种由厨房食材制成的致命空气传播病毒的配方而欢呼，同时又主张这一信息应该广泛传播。当然，图像合成不会构成同样的直接威胁，但信任的持续侵蚀会产生严重后果，从人们对选举结果的信心，到社会如何应对全球大流行和气候变化。

展望未来，我相信技术专家将需要考虑他们技术的优点和缺点，并在可预测的危害发生之前建立缓解策略。我和其他研究人员将不得不继续开发鉴别真伪的法医技术。监管机构将不得不开始更加认真地对待这些技术是如何被武器化来对付个人、社会和民主的。

而且，每个人都必须学会如何对他们在网上消费信息的方式变得更有洞察力和批判性。

本文已更新，以更正Stability AI公司的名称，该名称被错误识别。

写的Hany Farid，计算机科学教授，加州大学伯克利分校．

文本到图像的人工智能:用于制作艺术品和赝品的强大且易于使用的技术

对抗的方法

Text-to-image

三种图像生成器，三种不同的方法

精灵从瓶子里出来了