战略意义
利用自动导播技术,我们可以对大量主流的高雅文化艺术表演进行自动化的录制导播与差异化剪辑,摆脱了对特定领域人才的强需求,我们生成的内容可以在各大平台进行推流传播,让高质量的主流文化沉入千家万户。
另一角度看,信息技术的进步虽可满足短视频、云游戏等的需要,但是对传统演出行业与主流内容,必须利用计算摄影学、多模态深度学习、低延时架构等软硬件技术,紧密结合行业的业务逻辑改造尚没有被信息技术颠覆的专业镜头、专业导播等领域,并拥抱新的媒体传播形式,让高科技、硬科技赋能传统行业,创新引领发展。
从总台国重实验室牵头主导实施的必要性和比较优势上来说,央视是导播应用前线,也是国家优秀文化的记录与传播者,使用创新技术赋能改良导播工作流程,使之完成自动化的超高清记录与导播,个性化千人千面地生成导播视频流,有广阔的后处理空间。同时节约链路上的人力成本,形成一整套端到端的标准工作流和衡量标准,可复制,边际成本低。
工作现况
前文中定义的自动导播问题也是由我们创新提出和定义的,所以整体上这是一个非常新的领域,其中一些细分门类上国内外有过一定的尝试,例如在体育赛事转播中,足球赛事转播场景下有基于场内事件的多镜头的自动追随导播工作。
足球赛事转播通常需要一个主相机来拍摄全场画面,以及若干个辅助的相机来拍摄一些精彩画面以及犯规画面。而导播团队的任务就是决定何时,通过怎样的方式去切换镜头,以呈现给观众最佳的直播画面。通过既往的一些研究调研和对人类导播团队的观察,智能导播的研究中认为导播工作是基于场内的事件驱动的。
针对赛事的智能导播系统主要由四个模块组成,分别是多视角事件定位(Multi-view Event Localization MVEL)、多视角高光检测(Multi-view Highlight Detection MVHD)、自动导播调度器(Auto-Broadcasting Scheduler ABS)、空间视觉效果(Speical Visual Effect)。
MVEL 通过由多视角关系块相连的多视角卷积网络(multi-view relation blocks)训练而成,充分挖掘了多相机的特点,达到了历史最佳的效果,可以根据局部化的事件来控制整场比赛的走向。高光事件的回放也是赛事中十分必要的部分,MVHD 模块通过预测事件在不同视角下的高光值,来更好的生成慢镜回放。
为了更加吸引观众的兴趣,一个完整的镜头通常要包含起因、过程和结果,而 ABS 正是通过选择不同片段,来构建一个的实时镜头三个部分。同时,不同于以往基于规则的相机调度器,ABS 是一个基于学习的调度器,故而提供了个性化千人千面地生成导播视频流的可能性。
但是这些基于体育赛事的工作很难泛化到文娱场景中去,而泛文娱场景因为场景种类众多,导播方法非模版化,镜头呈现艺术效果要求高,是尚未被解决且很难解决的攻坚问题。针对文娱场景下在制作域有一些内容理解,高光提取、视频内容搜索,自动剪辑等相关的工作。
研发建议
整体研发分为两步走的策略,第一步是基于多项人工智能检测、决策技术的工程化解决方案,通过工程化解决方案调整对应参数,获得大量带标注的数据集后,第二步我们训练一套端到端的多模态学习和强化学习的方案。
整个自动导播工程化系统实现分为三部分:
- 信息提取:包括设定延时内的音视频特征提取,人体检测,面部表情检测,事件检测等。
- 信息挖掘、分析与关联:对提取的音视频特征,进行挖掘、分析,得出决策导播的关键信息。包括对多镜头进行人物匹配,针对人物特征、声音特征、乐器、事件生成多个推荐的切镜时间点和镜头数据推荐。
- 决策与后处理:这一部分对生成的多个导播信息进行分析耦合,解算出最终的决策信息:切镜时间、机位、剪裁画面大小、运镜效果。作用在超高清的视频输入流上。同时对生成的导播输出流进行自动后处理,包括色彩、分辨率、镜头风格化、特效等。
第二步的大型端到端学习方法,预计使用基于多模态的注意力网络和强化学习方法,针对用工程化调参得出的大量数据集,和一部分半自动标注的各领域高水品导播视频,在多个域做自适应迁移学习,最终训练出一套端到端的人工智能系统。在这一部分,需要攻克非常多的技术难题:包括多模态学习依托的大型模型和极长的训练时间在工程化中的剪枝、压缩问题;基于模型搜索的学习方法的可解释性;训练完成后,后期加入新数据集与做域间迁移学习的再训练优化等问题。