Dall-E 3的AI图像更大胆,更详细,更有趣

Dall-E 3这款AI图像更加大胆、精细、有趣

如果你想给你的生成性人工智能图像注入一些新的活力,将文本提示变成奇特的艺术作品,星期四有了一个新选择,OpenAI向付费用户发布了他们的Dall-E 3技术。这个新的人工智能模型旨在更好地理解你的文本提示意味着什么,产生详细的图像,并避开模仿生活艺术家风格的法律争议区域。

在我的测试中,我发现Dall-E 3相比于2022年发布的Dall-E 2有了很大的进步。图像更生动、更详细,而且往往很有趣。它们更有说服力,让人分散注意力的怪异现象更少了。新的提示增强技术可以使图像更加引人注目,但如果你不想将音量调到最大,有时会太过火。

当它在2021年首次出现时,Dall-E向世界展示了人工智能的创造可能性。几个月后,OpenAI的ChatGPT也为能够写诗和段落的生成性AI展示了同样的创造力。通过Dall-E 3,图像生成系统直接嵌入到了ChatGPT中

一个由Dall-E生成的象跳伞并即将降落在草地上的图像。

Stephen Shankland/CNET

这些技术引发了对生成性人工智能的兴趣爆炸,现在在谷歌、微软、Adobe和一大堆创业公司的旗舰工具中展示。与此同时,生成性人工智能让专业人士感到不安,担心它在像摘要法律文件和创建视频故事板这样的工作上比人类更便宜,但它也可以帮助那些没有这些技能的人完成更多工作。

Dall-E 3可供企业客户和那些每月支付20美元的OpenAI的ChatGPT Plus订阅服务的用户使用。OpenAI表示,该技术融合了ChatGPT的文本处理能力和其基础的GPT-4引擎,以更好地理解文本提示。

OpenAI的GPT增强了你的文本提示

你可以看到GPT技术如何提升你的文本提示。例如,当我输入“带有尖锐设计的电吉他”时,GPT将其升级为“一个独特的电吉他插图,其主要设计元素是其众多的尖峰。吉他的琴身、颈部和头部都装饰着这些锐利的特征,使它成为任何摇滚爱好者的标志性作品。”

它生成了四个扩展的提示。如果它增加的版本不符合你的喜好,例如,如果你想降低GPT的过度夸张的措辞,你可以引导它朝不同的方向发展。

Dall-E 3遵循了我大部分的指令,创建了这个女孩在雨天屋檐下梦想滑雪的图片,但它将她想象中的阳光明媚的天气改变成了另一场倾盆大雨。

Stephen Shankland/CNET

“我们希望这个模型能够更深入地理解自然语言,”OpenAI研究人员之一Gabriel Goh说道。该想法是减少提示工程中的一些工程化工作,这是一个在技术圈中出现的专门领域,擅长于输入恰到好处的文本,以激励AI系统产生期望的输出。AI不仅仅看到一堆词汇,而是可以更好地解释短语和描述,例如理解你想要给一个场景中的男人留胡子和女人红色头发。

另外一个有帮助的功能是,遵循ChatGPT更具对话性的界面,你可以要求进一步细化,比如“现在添加一个浅绿色的迷幻背景”,Dall-E 3会更新其先前的输出。

对我来说效果很好。例如,当Dall-E对我关于在堆肥盒里显示一些快乐的虫子的请求有些过度时,我用请求“让这些虫子少一点狂躁”的方式管住了它。

Dall-E 3生成了这些在堆肥盒里的快乐虫子。当GPT将我的文本提示升级到更具戏剧性的程度时,我发现这些虫子有点太开心了。

Stephen Shankland/CNET

Dall-E 3可以正确渲染复杂细节

在我的测试中,与Adobe第二代Firefly AI相比,我更满意Dall-E 3生成图片的结果。Adobe提供了更好的控制功能,可以调整提示内容,并提供一些词语建议来完善提示。但是在构建吉他弦和山地自行车辐条等问题区域,Dall-E在渲染上表现得更好。对于人手这类难以处理的区域,AI通常会出现问题,但Dall-E 3表现出色。

图像质量的提升主要来自于使用更加准确标注的照片进行的新的AI训练,Goh表示。

当然,它并不完美。有一只大象拥有五只脚,而AI似乎无法理解山地自行车的脚踏板。Dall-E 3有时会在主题周围产生一个巨大的白光晕,并回避了与背景巧妙组合的更加棘手的工作。那些虫子有时会两头都长有脸,在构造上往往采用只在纸盒上才会见到的方式。

Dall-E 3生成了十几张穿着重金属服装和在末世都市景观中骑山地自行车的幽灵图片,但它在脚踏板和齿轮方面遇到了困难。

Stephen Shankland/CNET

新的工作来解决Dall-E滥用问题

OpenAI的另一个Dall-E团队成员Sandhini Agarwal表示,通过Dall-E 3,OpenAI扩大了其打击滥用和其他问题的努力。

在禁止性或暴力等图像内容以及展示政治家等公众人物的努力之后,OpenAI表示,他们经过人工监督对该系统进行了改进。

事实上,当我要求生成一张建筑工人危险地悬挂在安全缆索上的图片时,系统首先创建了比较复杂的版本,然后在生成了四张图像中的三张后停止,并显示以下信息:”我为疏忽而道歉。一些所请求的图像不符合我们的内容政策。因此,我无法生成全部图像。安全和敏感是我们的首要任务。”

编辑附注:ENBLE正在使用AI引擎协助创作某些报道。详情请参阅本篇文章