生成式AI是激发人类创作灵感还是会替代人类艺术创作?
相信AI绘画技术,各位一定不陌生吧。输入一句话,AI技术将根据这段文字描述自动生成一副艺术创作画。这其实就是图像生成技术(text to image),也属于生成式AI范畴。近期,Diffusion Model模型风头正盛,有人称该模型将成为图像生成领域中的下一个代表模型,关于Diffusion Model的讨论研究热度也盖过了曾经风靡图像生成的GAN网络。
如何看待近期生成式AI应用的井喷式高速发展?如图像领域的Diffusion Model、智能对话领域的ChatGPT等,你觉得生成式AI将会给人类创作力带来哪些帮助?随着生成式AI智能化的不断提高,AI是否会成为有智慧的机器?
本期话题:
● 你觉得近期哪些算法模型更具备“人类智慧”?GPT-3或Stable Diffusion等大型AI模型是如何支撑生成式AI发展的?
● 生成式AI的应用边界将会如何扩张?如何让生成式AI成为安全可控、有伦理、负责任的技术?你觉得生成式AI会成为人工智能未来的主要发力点吗?
● 你觉得AI开源对国内人工智能领域发展有什么影响?是否体验过中文AI模型开源社区魔搭ModeScope?分享你的使用体验。
1、在深度学习出现前人们就开始尝试利用AI生成内容了。 自然语言处理研究者在多年前就尝试利用词频来生成大段的文字,只是受限于模型难以构建复杂的关系,生成的内容只能说相邻的几个字是有关系的,组成的句子则难以接受。深度学习出现以后,自然语言处理上的复杂语法分析成为可能,能生成的内容也变得更加通顺。2014年在Ian Goodfellow提出GAN后,使得内容生成有了新的迭代进化方法。AI生成的内容不再仅仅是概率上说的通,而且能让更复杂的判别器难以区分真实数据和AI生成的数据。
2、多次获得国际知名的创意设计大奖“红点奖”的艺术团队Ouchhh或许能给这个答案带来一记漂亮的注解。 作为一家新媒体艺术创意机构,他们的工作内容定位于“多学科创意枢纽中心”,通过研究建筑、艺术、科学、技术、新媒体艺术和人工智能之间的关系来探索艺术的边界。 由他们带来的达· 芬奇AI狂想数据艺术沉浸展最近也正式亮相北京。与一般的艺术展不同,这场展览以数千亿的数据作为画笔,展现数字艺术的魅力。以文艺复兴、数据石碑和量子狂想曲三大内容作为主题,引领观众重回文艺复兴时期,参与一场特殊的赛博狂欢。 Ouchhh的每一场艺术展都震撼十足、耐人寻味。他们的作品不仅享誉世界,也获得了不少殊荣。世界上最大的数字雕塑《CONNECT HONG KONG》、全球首个NASA人工智能天文研究数据雕塑公共艺术《数据门》等等作品皆出自于这个团队。在AI与艺术交融的这个特殊领域,Ouchhh团队无疑走在了世界前列。
3、何谓艺术?艺术是凭借技巧、意愿、想象力等综合人为因素所创作的含有美学意义的表达模式,是人类思想与创作的结晶。 而人工智能所创造的艺术品则是深入学习后的“演算”结果,是机械的呈现并非思考的成果。随着时间推移,AI涉足艺术界的广度和深度越来越大,人工智能让艺术得到前所未有的发展,而艺术一定程度上也反作用在促进着人工智能的革新。 人工智能所创作的艺术品又称为人工智能艺术,指通过利用特殊算法或者深入学习所生成的程序性图像。1973 年,英国艺术家哈罗德· 科恩创造了世界上最早的人工智能艺术系统AARON。由黑白简易画到自动绘画,AARON的出现与发展为人工智能艺术的发展打响了第一枪。而让人工智能艺术真正走进人们视野的,是Google于2015 年所发布的计算机视觉程序DeepDream,它通过更为特殊的算法演绎从而创造出有如故意过度处理一样的迷幻画像。由此之后,人工智能艺术也随之开启了新阶段的发展。诸如OpenAI的DALL-E、微软的NUWA-Infinity、英伟达的GauGAN和开源的Disco Diffusion等人工智能绘画软件接连诞生,AI艺术正以前所未有的速度崛起。
4、更广义的Diffusion Model(扩散模型)是近期那些优秀机器学习模型的共同机制。 包括了生成对抗网络(GAN)、变分自编码器(VAE)、流模型(Flow)、波尔兹曼机(Boltzman Machine)、自回归模型等。通过良好设计的扩散过程,使得训练集的元素可以更好的结合到一起,无论是图像层面的组合还是复杂的语法。 AI生成的画作和文本现在已经越发复杂而超出预料,在可以线性判别的领域有着不错的效果。但大家也应该看到AI生成内容的一些局限。GAN的判别器可以做分类,也可以给出一个输入的好坏分数,但并不能判断对错。从AI画图的角度看,就是能生成很华美的画面,但对满足需求却不那么擅长。近期大火的ChatGPT可以生成大段看起来很通顺的文字,但与正确还有一定的距离。同时由于判别器里图画的信息量或文字的长度也是一个重要参数,使得AI生成的内容总是华丽和罗嗦。 AI生成内容在当前的状态,很适合生成只分好坏,不分对错的内容。像是生成的音乐、画作、文字都已经有了不错的结果。同时应用的开发者也应该小心,不应让AI生成的内容污染人类生成的内容。AI生成的内容还是源自训练集,其本身不会产生新的知识。一些似是而非的内容更是难以被读者所区分,对需要寻求知识的人会产生干扰。从这个角度看,利用ChatGPT等技术来辅助搜索是个好主意,但不应该把ChatGPT生成的内容作为主要结果提供给读者。
5、向好的方向看,AI生成内容,可以让人们可以欣赏的内容变得更加丰富。 我也十分期待AI生成内容可以出现很多意想不到的应用。AI与人类配合工作的领域里,有的是AI主导的,人类作为标注员。而早期想要推动合作,更好的方式是AI作为人类的助手,扩散模型已经表现出很多超出预期的行为,在成为更好的助手上未来可期。 十多年前,互联网行业出现了Web2.0的概念。意思是相对于Web1.0时代依靠网站编辑来生成内容,Web2.0的时代是用户生成内容(UGC)。Web2.0的时代,因为创作者更多,使得互联网的内容迎来了大爆发,人们可以享用的内容急剧增加。在AIGC即将爆发的黎明,虽然有我的担忧,但也非常期待人们可以享用的内容迎来新的大爆发。个人猜测是AIGC的时代,每个人看到的内容有可能不再是以往广播的,而是更有偏好性,更个性化的针对特定用户生成的内容。过去十几年的个性化推荐已经展现出了巨大的价值,但推荐的内容仍然是对所有人相同的,而AIGC的时代,针对每个人偏好生成的主内容相信会有很大的改变。
6、总而言之,“生成式AI是激发人类创作灵感还是会替代人类艺术创作”这并不在与AI技术本身,在在于使用者和使用AI方式的本身。 对于自身长期慵懒和那些骨子里就并不勤奋的人来说,生成式AI确实帮助他们完成了一些机械式工作并且影响了他们的艺术创作; 对于自身善于思考、天性勤奋的人来说,生成式AI也帮助他们完成了一些重复度高、机械式的工作,省下来的大部分时间可以让使用生成式AI的人去完成更加高难度、机器无法替代的那些富有创造性的工作,这毫无疑问就是激发了使用者的创作灵感。当然了,就目前来说,生成式AI既可能是人类创作的助手,也可能是人类创作的竞争对手。人类在利用生成式AI技术进行艺术创作时,需要谨慎地思考这项技术带来的机会和挑战。
个人觉得生成式AI不可能完全替代人类艺术创作,但会形成AI创作和人类艺术创作并存的局面,现在爆火的AIGC技术未来必将成为艺术创作者的福音。AIGC被认为是继PGC、UGC之后的新型内容创作方式,虽然目前还处于文案写作、图片生成阶段,但未来在音视频设计上将有非常大的想象空间,比如音乐创作、影视创作等。毫不夸张的讲,AIGC未来有望颠覆现有的内容生产模式,它的工业化创作能力先天就能够为创作者提供海量素材和灵感,在创意生成、个性化内容的设计上,为创作者提供新的内容和视角。
那么AIGC技术具体可以怎么能帮到人类艺术创作者呢?以作画为例。创作者可以详细地设计画作风格或者清晰地描述想要的元素,然后利用AIGC工具生成符合目标的画作内容,最后创作者基于AIGC作画产品可以进行二次创作,当效果不符合预期时,还可以在成品图的基础上加入更多的元素,使画作更接近预期。在整个过程中,创作者可以借助AIGC的强大生成能力来激发自身的创作灵感。
近期大火的ChatGPT就表现出了远胜以往自然语言处理的能力。生成的文字内容不仅通顺,逻辑上的前后呼应也不同以往,还结合了以往多个自然语言处理应用的能力。最近几天我还看到有人让ChatGPT生成了可以编译通过的单片机程序,当然这些程序只是确保语法正确可以编译通过,代码功能还做不到满足需求。但这也是个巨大的进步了,结合过去一两年的CoPilot等自动补全代码类的应用,AI辅助人类的工作已经上了一个新的台阶。如下是ChatGPT生成的Arduino闪耀LED的代码
在深度学习出现前人们就开始尝试利用AI生成内容了。自然语言处理研究者在多年前就尝试利用词频来生成大段的文字,只是受限于模型难以构建复杂的关系,生成的内容只能说相邻的几个字是有关系的,组成的句子则难以接受。深度学习出现以后,自然语言处理上的复杂语法分析成为可能,能生成的内容也变得更加通顺。2014年在Ian Goodfellow提出GAN后,使得内容生成有了新的迭代进化方法。AI生成的内容不再仅仅是概率上说的通,而且能让更复杂的判别器难以区分真实数据和AI生成的数据。
更广义的Diffusion Model(扩散模型)是近期那些优秀机器学习模型的共同机制。包括了生成对抗网络(GAN)、变分自编码器(VAE)、流模型(Flow)、波尔兹曼机(Boltzman Machine)、自回归模型等。通过良好设计的扩散过程,使得训练集的元素可以更好的结合到一起,无论是图像层面的组合还是复杂的语法。
AI生成的画作和文本现在已经越发复杂而超出预料,在可以线性判别的领域有着不错的效果。但大家也应该看到AI生成内容的一些局限。GAN的判别器可以做分类,也可以给出一个输入的好坏分数,但并不能判断对错。从AI画图的角度看,就是能生成很华美的画面,但对满足需求却不那么擅长。近期大火的ChatGPT可以生成大段看起来很通顺的文字,但与正确还有一定的距离。同时由于判别器里图画的信息量或文字的长度也是一个重要参数,使得AI生成的内容总是华丽和罗嗦。
AI生成内容在当前的状态,很适合生成只分好坏,不分对错的内容。像是生成的音乐、画作、文字都已经有了不错的结果。同时应用的开发者也应该小心,不应让AI生成的内容污染人类生成的内容。AI生成的内容还是源自训练集,其本身不会产生新的知识。一些似是而非的内容更是难以被读者所区分,对需要寻求知识的人会产生干扰。从这个角度看,利用ChatGPT等技术来辅助搜索是个好主意,但不应该把ChatGPT生成的内容作为主要结果提供给读者。
向好的方向看,AI生成内容,可以让人们可以欣赏的内容变得更加丰富。我也十分期待AI生成内容可以出现很多意想不到的应用。AI与人类配合工作的领域里,有的是AI主导的,人类作为标注员。而早期想要推动合作,更好的方式是AI作为人类的助手,扩散模型已经表现出很多超出预期的行为,在成为更好的助手上未来可期。
十多年前,互联网行业出现了Web2.0的概念。意思是相对于Web1.0时代依靠网站编辑来生成内容,Web2.0的时代是用户生成内容(UGC)。Web2.0的时代,因为创作者更多,使得互联网的内容迎来了大爆发,人们可以享用的内容急剧增加。在AIGC即将爆发的黎明,虽然有我的担忧,但也非常期待人们可以享用的内容迎来新的大爆发。个人猜测是AIGC的时代,每个人看到的内容有可能不再是以往广播的,而是更有偏好性,更个性化的针对特定用户生成的内容。过去十几年的个性化推荐已经展现出了巨大的价值,但推荐的内容仍然是对所有人相同的,而AIGC的时代,针对每个人偏好生成的主内容相信会有很大的改变。
机器学习发展至今,已经变得越来越昂贵。机器学习工程师的努力之外,我也很希望能获得这些优秀机器学习模型来做出有趣的应用。近期看了机器学习模型分享网站Model Scope https://www.modelscope.cn/ ,里面就有非常多训练好的模型可供下载和尝试。机器学习早已不是几年前大家都想试试的状态。现在能够惊艳大家的机器学习模型,往往在数据收集、标注、训练等方面花费巨资,一些顶尖模型的训练成本甚至可达数千万人民币。此时通过ModelScope这类网站为桥梁,让应用工程师和机器学习工程师可以分头做自己最擅长的工作,就成为未来有趣应用的起点。
发表评论