用朴素的语言,还原你天马星空的想象。
喜悦
早上,终于收到了 OpenAI 的通知,漫长的排队后,我可以用 DALLE 了。
种草了多长时间?我都快忘了,哈哈。
查了一下,是 4 月 7 日申请的,今天 7 月 13,差不多 100 天吧 😂
激动的心,颤抖的手,赶紧点进去。
欢迎我的,是这样一个霸王条款:
这图片,严禁商用,更别提 NFT 了;而且 OpenAI 对于我创作出来的图片拥有所有权。你只对自己上传到系统的图片有所有权。但是,为了改进模型,人家可能还要用你上传的图片作为训练数据……
搁以前我的脾气,扭头走人。
但是这回不行,吸引力太大,哈哈。
尝试
我输入了这样一段描述文字:
a kung fu panda is fighting with a T-rex in the woods
然后模型开始工作。等候过程中,会有一些提示,帮你改进后续的内容输入方式。
例如这个:
进度条往后走,还有这样的提示:
几十秒钟之后,进度条到头儿。我看到了结果,一共 6 张图片。我一一点进去。
这张很不错:
这张也行:
最搞笑的,是这张:
你拿恐龙当玩具吗?
这是 6 张图片的全景。你更喜欢哪一张呢?
我正玩儿得不亦乐乎,儿子进来了。他刚放假,最近在和弟弟养小鸡。于是他出的题目是:
Two little boys, teasing two fluffy chicks
出来的结果,他不是很满意。
因为这俩小孩儿,明显是外国人嘛。于是我修改了一下描述:
Two little Asian boys, teasing two fluffy chicks
嗯,看起来好多了。
对比
其实,这已经不是我第一次为你介绍人工智能自动绘图工具了。
还记得吗?去年那篇《如何把你的想法一键变成图画?》里,我给你展示了 Text to Image Art Generator 这款工具的绘图能力。
下面咱们对比一下 Text to Image Art Generator 和 DALLE 对同样的文字绘制图像结果的差别。
这是第一句:
a small boy on the shark in deep ocean
对应绘制图形是这样。
我把同样的内容,输入到了 DALLE ,咱们再来看看。
果然是没有对比就没有伤害啊,哈哈。
当时的文章里,还有一句话,是:
a t-rex playing in olympics 100 meters running game
当时那款工具做的图,是这样的:
咱们看看同样的话,在 DALLE 里面是啥样的:
唉,只能用「不可同日而语」来形容了吧。
顺便,我想对比一下前些日子非常火的 Disco Diffusion 和 DALLE 的区别。
前些日子刚开始用 Disco Diffusion 的时候,我写了这样一段:
a beautiful landscape painting of A wizard in black robes, and a Tyrannosaurus rex in a fierce battle in the primeval forest. a 9-year-old boy and a 5-year-old boy are watching them in the corner.
这是当时 Disco Diffusion 经过几十分钟搞出来的结果:
而这,是 DALLE 几十秒钟画出来的:
再来对比另外一组:
A comic with a robot wearing a cowboy hat in the center is painting a landscape on a drawing board. The right side of the painting has a creek running through it, with mountains and sunset in the distance in the background by Pablo Munoz Gomez Trending on artstation
这是 Disco Diffusion 的结果:
这是 DALLE 的:
其中,我最喜欢的是这张。
你最喜欢哪张呢?
挑战
我给你不厌其烦展示这种机器作画的能力,并不是显摆「看我电脑画得多棒」或跟你鼓吹「艺术家要失业了」之类的危言耸听。艺术家不会失业,他们会和 AI 联合,把工作做得更高效,进一步挑战人类创造力的边界。
但是,有两个事情,我们需要注意。
首先,那些从事非艺术的绘画创作的人,可能会遭受到职业危机。例如我从前写文章,都需要自己从 unsplash 等公共版权图库查找题图,以避免将来被追索版权费。很多摄影、绘画作品,也是靠着授权来获得收益。但是现在,对于题图来说,我觉得机器绘制的图形,已经足够用了。
当然,前面提到过,版权依然是个问题。如果你把机器生成的图片用作商用,DALLE 并不适合。不过技术的进步,会带来更快的迭代速度,和更好的绘画质量。而且先进技术会迅速扩散。我们可以期待,后续会有更多的类似服务,而且像 Disco Diffusion 一样,并不会给用户带来版权的困扰。
另外一件事情,更让人担心。
前些日子,我们学院主办了一次《数据分析与信息服务发展国际会议》。
其中一位主讲嘉宾 Daniel E Acuna 提出了科研伦理中的典型问题——图片抄袭。
很多论文的抄袭、剽窃都是用图片对比来发现的。讲到这里,你可能会感到奇怪,为什么非得要原封不动像素级拷贝别人论文的图片呢?这是因为,科研中的证据照片(例如显微镜观察到的)或分析结果绘图要想「无中生有」,其实挺困难的。诸多因素牵扯,使得你「生造」图像的话,很容易会被专业人士识别出来。因此更多人的铤而走险,选择的方向是把已经出现在图片里面的元素,稍加改动或者干脆拷贝粘贴。他们的侥幸心理作祟,期盼别人发现不了这张图和原图之间的联系。
我在想,DALLE 这样强悍的工具出现,对于学术论文图的造假,会意味着什么?
在很多领域,例如生物、医学,都有大量的图片和它们对应的描述。一旦有人把这些内容进行采集,微调 DALLE 这样的模型。那么他完全可以瞒天过海,仅用自己的语言描述,就把想要的结果直接变成制式、风格全都无懈可击的「新」照片或图形。这将给研究结果真实性和原创性的审核,带来严峻的挑战。
有什么好办法来应对吗?我能想到的,是用技术对抗技术。只有同样见多识广的模型,才能打败这种违背学术道德的「无中生有」。拭目以待吧。
小结
本文给你介绍了我试用 OpenAI 的 DALLE 这款人工智能绘图工具的结果,以及一些并不足够深入的思考。面对新的科技浪潮,拥抱比排斥往往更为明智。你有没有尝试这些人工智能绘图应用?你觉得效果如何?有什么想要吐槽的?欢迎留言,我们一起交流讨论。
祝(人工智能)绘图愉快!
如果你觉得本文有用,请充电。
如果本文可能对你的朋友有帮助,请转发给他们。
欢迎关注我的专栏「科研利器」,以便及时收到后续的更新内容。