题材介绍:
一、AIGC概述
1、概念
AIGC(AI-Generated Content,人工智能生产内容),狭义概念是利用AI自动生产内容的生产方式,但广义上AIGC已在实现人工智能从感知理解世界到生成创造世界的进击;
AIGC代表AI技术发展的新趋势,过去传统人工智能偏向分析能力,而现在人工智能正在生成新内容,通过大量的训练数据和生成算法模型,自动生成文本、图片、音乐、视频、3D交互内容等各种形式的内容;
换言之,AIGC正在加速成为AI领域的商业新边界;AIGC也会带来内容创作的变革,如智能数字内容孪生能力、智能数字内容编辑能力、智能数字内容创作能力。
2、发展历程
伴随人工智能发展演进,AIGC发展可分为三阶段,早期萌芽阶段(20世纪50年代至90年代中期)、沉淀累积阶段(20世纪90年代至21世纪10年代中期)、快速发展阶段(21世纪10年代中期至今)。
二、应用场景
AIGC按内容生成类别可划分为文本、代码、图像、音视频四类,根据红杉资本预测,2023年文本、代码生成有望得以成熟应用,其中文本生成可实现垂直领域文案的精确调整,达到科研论文精度,代码生成可覆盖多语种多垂直领域;图像、音视频生成的成熟度相对较低,目前尚处于生成基础初稿的阶段,2030年有望得以成熟应用。
1、文本生成
1)应用型文本
大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、公司财报、重大灾害等简讯写作。Narrative Science创始人甚至曾预测,到2030年,90%以上的新闻将由机器人完成。
2)创作型文本
主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。我们使用了市面上的小说续写、文章生成等AIGC工具。
发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基于事实的,创作型文本还需要特别关注情感和语言表达艺术。
3)文本辅助
除去端到端进行文本创作外,辅助文本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用,例如定向采集信息素材、文本素材预处理、自动聚类去重,并根据创作者的需求提供相关素材。
4)文本互换
例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台Hidden Door以及基于GPT-3开发的文本探索类游戏AIdungeon均已获得了不错的消费者反馈。
案例:小冰发布小冰岛APP,每个用户均可创造自己的岛屿,并连带拥有一个功能类似于微信和LINE等社交产品的完整社交交互界面。用户不仅能在岛屿中体验丰富的视觉和自然音场,与人工智能个体进行对话,还可以再造完整的一对一对话、群聊、朋友圈和技能生态体验。
2、音频生成
1)TTS(Text-to-speech)场景泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。
随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音,上线有150+款包括不同方言和音色的AI智能配音主播。
2)乐/歌曲生成
AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言,AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。
通过这一功能,创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作《第十交响曲》,即为AI基于对贝多芬过往作品的大量学习,进行自动续写。
3、图像生成
1)图像属性及部分编辑
属性编辑部分,可以直观的将其理解为经AI降低门槛的PhotoShop。目前而言,图片去水印、自动调整光影、设置滤镜(如Prisma、Versa、Vinci和Deepart)、修改颜色纹理(如DeepAI)、复刻/修改图像风格(DALL·E2已经可以仅凭借单张图像进行风格复刻、NightCafe等)、提升分辨率等已经常见。
图像部分编辑部分,指部分更改图像部分构成(如英伟达CycleGAN支持将图内的斑马和马进行更改)、修改面部特征(Metaphysics,可调节自身照片的情绪、年龄、微笑等;以Deepfake为代表的图像换脸)。
2)图像端到端生成
此处则主要指基于草图生成完整图像(VansPortrait、谷歌Chimerapainter可画出怪物、英伟达GauGAN可画出风景、基于草图生成人脸的DeepFaceDrawing)、有机组合多张图像生成新图像(Artbreeder)、根据指定属性生成目标图像(如Rosebud.ai支持生成虚拟的模特面部)等。
4、视频生成:
1)视频属性编辑
视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成视频特效、自动添加特定内容、视频自动美颜等。
2)视频自动剪辑
基于视频中的画面、声音等多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成。目前还主要在技术尝试阶段。
典型案例包括Adobe与斯坦福共同研发的AI视频剪辑系统、IBM Watson自动剪辑电影预告片、以及Flow Machine。我国的影谱科技推出了相关产品,能够基于视频中的画面、声音等多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成。
3)视频部分生成(以Deepfake为典型代表)
视频到视频生成技术的本质是基于目标图像或视频对源视频进行编辑及调试,通过基于语音等要素逐帧复刻,能够完成人脸替换、人脸再现(人物表情或面部特征的改变)、人脸合成(构建全新人物)甚至全身合成、虚拟环境合成等功能。