那么 是如何工作的?
官方网站还解释这种人工智能技术的工作原理,首先分析用户输入的文本并使用T5-XXL进行编码。嵌入在 AI 中的文本首先被转换为分辨率为64×64像素的小图像。进一步利用文本条件超分辨率扩散模型对图像进行64×64的上采样,然后这个图像继续增长并最终形成。
然后脑洞大开的国外网友们,不按套路地给出了道题:
给宋代的东方老虎佩戴VR。
也没在怕的,“啪的一下”就给出了一幅力作——《虎戴VR》。
还别说,这幅《虎戴VR》还真是有点内味了。
不仅是画风上,VR头戴跟老虎以及整幅画作能够保持一致。
就连手柄、双虎嬉戏的感觉也都一步到位地画了出来。
然后还有两只老虎戴VR,手牵着手一起“恰恰恰”的:
甚至还别出心裁地设计了个“连线”版VR(可能在面对面看片吧):
但毕竟在AI作画这事上,除了谷歌之外还有很多神器。
于是,一场《虎戴VR》作画大战就此拉开序幕。
(猜猜谁家的画更有“心有猛虎,细嗅蔷薇”的味道)
首先来应战的,定然是家的DALL·E。
网友Jacob出于好奇,便用它做了几幅来做比较。
首先是满满“定妆照”风格的《虎戴VR》(很飒啊):
不难看出,DALL·E的画作和在风格上还是有很大的区别。
的画作更趋于简约线条风,而DALL·E则更多了些许油画的元素。
不过在意境方面,DALL·E也是能够产出“双虎嬉戏”,甚至是拟人的画作:
二者相比之下,网友们给出了他们的评价:
显而易见,大多数网友们对谷歌家的更买单。
的开发者谷歌研究的大脑团队也表示,基于变压器和图像扩散模型,实现了前所未有的真实感。
谷歌声称,对比其它模型,在图像保真度和图像-文本匹配方面,人类评估者更喜欢 。