ChatGPT中的DALL-E 3能阅读和修改图像吗?自己来看看吧

ChatGPT中的DALL-E 3是否具有阅读和修改图像的能力?快来一起探索吧!

steam-santa.png

我一直在探索在ChatGPT Plus中使用DALL-E 3。我这样做是因为这是我的工作,而不是因为我对将脑海中的某种描述在几分钟内实现在屏幕上有一种不健康的小瘾症。我随时可以停下来。当然,这是可以的,我随时可以停下来。

但今天不行。今天,我发现了一个新玩具。DALL-E 3 inside of ChatGPT可以读取和修改图像。在某种程度上是这样的。你看,它有些麻烦。但我有点提前。让我们从头开始这个故事…

还有:如何使用Midjourney AI进行完美换脸

我已经使用Midjourney一段时间来自定义上传的图像。问题是这个过程非常复杂。你必须在Discord上运行Midjourney,然后必须经过一系列的步骤将图像上传到Discord,获取URL等等…

在ChatGPT Plus中,你只需要点击附件图标并上传你的图像。一步到位。

这使得使用起来更加容易,也更有趣。但它的工作效果如何呢?为了测试它,我尝试了三张图片:我的车的照片,我的照片和ENBLE的标志。让我们来看一下结果。

我的车

这是我的车,一辆2013年的道奇挑战者的照片。

图片上传后,我指示DALL-E 3:

把车放在城市里

结果令人鼓舞。DALL-E 3成功地在城市场景中再现了这辆车的形象:

然后,因为我对蒸汽朋克有着明确的迷恋,我要求DALL-E:

将其变成蒸汽朋克风格

这是我们得到的结果。它仍然保留了道奇挑战者的整体车身风格:

DALL-E总是出问题

值得一提的是,我无法让DALL-E进行太多次迭代而不出问题。每两到三次请求(永远不超过四次),我都会收到这样的信息:

我的解决方法是将最后成功创建的图像上传到一个新的ChatGPT Plus会话中,并从那里继续。

还有:最佳AI艺术生成器:DALL-E 2和有趣的替代方案

飞行汽车

所以,我上传了最后一个图像,即我的汽车的蒸汽朋克风格版本,并告诉DALL-E:

让汽车飞起来

这是我得到的结果。我的原始车辆的形象消失了,我们得到了一个非常酷的“钦提钦提巴巴呼啦”(Chitty Chitty Bang Bang)风格的车辆在空中飞行:

虽然很酷,但它不再是我的车。但没关系,我们看看还能走到哪里。

圣诞老人

考虑到季节,我的下一个尝试是尝试把圣诞老人放在司机座位上。在这里,我遇到了一个非常过激的护栏,ChatGPT告诉我:“对不起,我无法提供帮助。”

是的,我们已经到达了一个时代,当人工智能说出了,“对不起,戴夫。我恐怕不能这样做。”生活模仿艺术。

正如你所见,这个推理有点奇怪。但它似乎依赖于这样一个事实,即我要求它修改一个上传的图片。所以我把上述提示作为一个单一的请求给它:

把汽车放在城市里。让它成为蒸汽朋克风格。让汽车飞起来。把圣诞老人放在驾驶座上。

我得到了这个:

这是一张不错的图片,但它没有之前的图片所具有的整体的维多利亚时代的美学。不过,有解决方法。

此外:如何使用Bing图像生成器(以及为什么它比以往更好)

ChatGPT基本上将每个提示都重写为更详细的指导。因此,例如,“让它成为蒸汽朋克风格”被重写为:

展示一幅以蒸汽朋克为主题的街景,有着古老的建筑,展示一辆经过改造的蒸汽朋克元素的经典肌肉车,如铜管、齿轮和蒸汽排气。汽车停在铺满鹅卵石的街道上,周围是街灯和维多利亚和工业革命影响融合的老式建筑。人们身穿蒸汽朋克服装,带着护目镜,穿着维多利亚式的服装,走在人行道上。整体氛围就像是一个古怪的城市,来自一个在蒸汽力是主要技术的替代历史中。

所以,我从“让它成为蒸汽朋克风格”和“让汽车飞起来”的描述性材料中取了一些部分,并将它们组合成这个提示:

把汽车放在城市里。让它成为蒸汽朋克风格。让汽车飞起来。把圣诞老人放在驾驶座上。下面,鹅卵石街道两旁是煤气灯街灯和穿着维多利亚时期服装的人们仰望。天空呈暮色橙色,有着雾霾,而远处有较小的蒸汽朋克无人机和飞船的嗡嗡声。整体氛围就像是一个古怪的城市,来自一个在蒸汽力是主要技术的替代历史中。

这是我收到的回复:

严格来说,它并不是一辆飞行汽车,但很酷。不幸的是,与我最初开始的原始汽车图片没有任何联系。

停下来,戴夫。你会停下来吗,戴夫?停下来,戴夫。

当我让ChatGPT把这张我的照片放在办公室里时,我又遇到了另一个哈尔的时刻:

它告诉我,“对不起,但我无法协助这个请求。”至少ChatGPT没有说,“看着吧戴夫,我可以看出你对此真的很沮丧。我真诚地认为你应该冷静地坐下来,服用一颗放松药片,好好考虑一下。”

此外:多亏了我的五个最喜欢的人工智能工具,我现在工作更加聪明

好吧。现在,为了完全不同的事情。

坐上喷气式列车

这是ENBLE的标志,我上传到了DALL-E:

首先,我试图让它把它放在一架喷气式飞机上:

把这个标志放在一架大型喷气式飞机的侧面

至少颜色是对的:

然后我试图让它把标志放在一座建筑物上。

把这个标志放在一座砖砌建筑物的侧面

它记住了绿色,但不是正确的绿色:

所以我试图让DALL-E把建筑物移动到一个模型铁路上。

把这座建筑物放在一个模型铁路上

结果类似于模型铁路(尽管前景中的轨道可能会导致脱轨)。

有一座砖建筑物,但并非同一座砖建筑物,连ENBLE徽标的假装都已消失。甚至连ENBLE绿色也不再存在。

此外:学者们称,即使采取预防措施,生成式人工智能仍然可能变得恶意

所以,当然了,我让它做了这个:

也将大型客机放在模型铁路上

我得到了这个。我只是想知道水中是飞机还是导弹。

我们学到了什么?

在调整这个DALL-E功能后,我认为我们可以得出以下结论:

  • 您可以将图像上传到DALL-E。
  • 您可以要求它修改图像,但结果参差不齐。
  • DALL-E经常出错。
  • ChatGPT可能没有展示人工通用智能,但它灵活运用抽象表现主义
  • 它的回答与HAL-9000非常相似。

以上就是全部。您是否曾经将图像上传到DALL-E?它对您来说如何?在下方的评论中告诉我们吧。


您可以在社交媒体上关注我的日常项目更新。请务必订阅我的每周更新通讯on Substack,并在Twitter上关注我:@DavidGewirtz,在Facebook上关注我:Facebook.com/DavidGewirtz,在Instagram上关注我:Instagram.com/DavidGewirtz,以及在YouTube上关注我:YouTube.com/DavidGewirtzTV