清华大学教育研究院(清华大学教育研究院博士招生)



清华大学教育研究院,清华大学教育研究院博士招生

《深度合成十大趋势报告(2022)》发布,其中谈到:“趋势四:深度合成领域开源项目数与讨论度持续攀升”。

2017年,名为“Deepfakes”的用户利用深度合成技术制作的成人视频在Reddit社区中疯狂传播,迫于公众舆论压力,Reddit网站将该用户封号。

该用户随即在全球最大的代码开源平台GitHub上公开了实现该技术的源代码,瞬时引发了技术爱好者的广泛关注与讨论。此后,开发者们不断创造和丰富更多的深度合成相关技术的项目与代码,以“GAN”、“NeRF”、“TTS”等关键词进行检索后发现,2017年以来的深度合成领域的项目数量显著增长。

在这些开源项目中,也涌现出了一些很有代表性的方法,这些方法受到越来越多的关注,也被应用在了不同的场景之中。

如faceswap项目,可实现识别和交换视频中的人脸的功能,自2018年初开源,曾一度登上GitHub排行榜第二位,目前已获得超过4万的关注量。

基于这些开源方法,更多的技术爱好者持续讨论并且做出补充和贡献,共同促进深度合成方法在合成质量、制作效率等方面不断升级和迭代。

以图像方向、音频方向、文本方向中具有代表性的5个开源项目为例,其Star数量在2021年均已突破1万(GitHub中Star数超过1万的项目占总项目数的比例低于百万分之九)。

其中,DeepFaceLab、first-order-model、stylegan、Real-Time-Voice-Cloning、gpt-2项目可分别实现面部替换、动作或表情操纵、人脸等图像生成、声音复刻、文本生成的功能。

四种深度合成形式在目前都存在一定局限,比如人脸替换需要对源图像和目标图像进行多角度的面部特征数据训,面部表情操控实现的前提是目标人物面部直对镜头,并且能保持一段时间,想要变换人脸角度就要更多的数据,更多的训练。而且,自然融入运行的视频之中的语音,用语音合成技术也较为困难,都需要很多技术和人力的投入。

《深度合成十大趋势报告(2022)》由清华大学人工智能研究院、北京瑞莱智慧科技有限公司、清华大学智媒研究中心、国家工业信息安全发展研究中心、北京市大数据中心近日联合发布。

(完)

出品,亲爱的数据

清华大学教育研究院(清华大学教育研究院博士招生)

未经允许不得转载:考研培训网 » 清华大学教育研究院(清华大学教育研究院博士招生)



赞 (0) 打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏