MULTI-MEDIA LAB

研究人员
项目简介


应用难题与瓶颈:

当前人工导播存在着工作链路长、后期空间小、一对多不适合当前千人千面的个性化推荐需求等等的诸多问题,链路之长体现在:1.人力多、人力要求高、成本高,一次导播的工作,需要导演、导播、摄像、后期制作等诸多人员配合,且面对不同的导播场景,需要配置对应领域的人员,人力要求高成本高。2.制作周期长,前期需要导演构思想法,导播制作拍摄脚本,彩排,后期制作,工期很长。
后期空间小体现在:在一次导播中,导播通常只能专注一个脚本,最后得到的导播结果可后期空间很小,在明星出现问题、现场突发事件等情况下,只能通过大量后处理或者放弃该节目进行解决。
且导播的形式是传统的一对多的制作,所有的观众获取同样的信息,它不能满足不同群体不同的喜好与不同的关注重点,与现在千人千面的个性化推荐需求水土不服。



现实应用场景:

自动导播系统可以泛化应用到多数导播场景,包括音乐会、舞蹈、话剧、对话节目等等,同时可以应用到多种互联网场景,可以按照用户喜好对以上内容进行差异化直播。
以交响乐场景为例,现场乐器种类繁多,且不同乐曲的乐队规格、组成可能大相径庭,例如西方古典交响乐与中国民乐就完全不同。再者,每首乐曲在各个时间点上该凸显的乐器、演奏者和乐部,与指挥的互动,场上的事件,这些因素揉杂在一起考验导播的水准。我们对阿巴多琉森音乐节的马勒第五交响曲的转播进行了手动标注,1小时的音乐会包含了7个机位,773次切镜,对导播人员的专业水平与音乐欣赏能力要求极高。
那么在这种场景下,利用超高清视频采集和人工智能技术可以利用转播延时对场景做理解,提取多种特征,智能决策需要进行切镜的时间点,并选择合适的机位进行视频采集,同时运用多种镜头语言模版自动地进行导播,可以实现无先验知识,无需人力的人工智能导播。


核心预期目标:

工程目标:开发搭建一套端到端的人工智能导播的硬软件系统,可以做到
  1. 低延时且可控延时 
  2. 高自由度定制切换导播参数包括:导播尺寸、兴趣对象、导播风格,且可以多参数同时导播 
  3. AI 嵌入开发,低功耗、少算力要求,可边缘部署
  4. 多场景自适应学习优化
研究目标:针对这个系统的每一步任务进行优化,系统及多优化方向发表两篇及以上高水平学术论文。
标准目标:开拓自动导播方向后,建立自动导播水平评价体系,提出多个泛用多种任务的评价指标与评价工具。


里程碑


战略意义


利用自动导播技术,我们可以对大量主流的高雅文化艺术表演进行自动化的录制导播与差异化剪辑,摆脱了对特定领域人才的强需求,我们生成的内容可以在各大平台进行推流传播,让高质量的主流文化沉入千家万户。
另一角度看,信息技术的进步虽可满足短视频、云游戏等的需要,但是对传统演出行业与主流内容,必须利用计算摄影学、多模态深度学习、低延时架构等软硬件技术,紧密结合行业的业务逻辑改造尚没有被信息技术颠覆的专业镜头、专业导播等领域,并拥抱新的媒体传播形式,让高科技、硬科技赋能传统行业,创新引领发展。
从总台国重实验室牵头主导实施的必要性和比较优势上来说,央视是导播应用前线,也是国家优秀文化的记录与传播者,使用创新技术赋能改良导播工作流程,使之完成自动化的超高清记录与导播,个性化千人千面地生成导播视频流,有广阔的后处理空间。同时节约链路上的人力成本,形成一整套端到端的标准工作流和衡量标准,可复制,边际成本低。


工作现况


前文中定义的自动导播问题也是由我们创新提出和定义的,所以整体上这是一个非常新的领域,其中一些细分门类上国内外有过一定的尝试,例如在体育赛事转播中,足球赛事转播场景下有基于场内事件的多镜头的自动追随导播工作。
足球赛事转播通常需要一个主相机来拍摄全场画面,以及若干个辅助的相机来拍摄一些精彩画面以及犯规画面。而导播团队的任务就是决定何时,通过怎样的方式去切换镜头,以呈现给观众最佳的直播画面。通过既往的一些研究调研和对人类导播团队的观察,智能导播的研究中认为导播工作是基于场内的事件驱动的。
针对赛事的智能导播系统主要由四个模块组成,分别是多视角事件定位(Multi-view Event Localization MVEL)、多视角高光检测(Multi-view Highlight Detection MVHD)、自动导播调度器(Auto-Broadcasting Scheduler ABS)、空间视觉效果(Speical Visual Effect)。
MVEL 通过由多视角关系块相连的多视角卷积网络(multi-view relation blocks)训练而成,充分挖掘了多相机的特点,达到了历史最佳的效果,可以根据局部化的事件来控制整场比赛的走向。高光事件的回放也是赛事中十分必要的部分,MVHD 模块通过预测事件在不同视角下的高光值,来更好的生成慢镜回放。
为了更加吸引观众的兴趣,一个完整的镜头通常要包含起因、过程和结果,而 ABS 正是通过选择不同片段,来构建一个的实时镜头三个部分。同时,不同于以往基于规则的相机调度器,ABS 是一个基于学习的调度器,故而提供了个性化千人千面地生成导播视频流的可能性。
但是这些基于体育赛事的工作很难泛化到文娱场景中去,而泛文娱场景因为场景种类众多,导播方法非模版化,镜头呈现艺术效果要求高,是尚未被解决且很难解决的攻坚问题。针对文娱场景下在制作域有一些内容理解,高光提取、视频内容搜索,自动剪辑等相关的工作。


研发建议


整体研发分为两步走的策略,第一步是基于多项人工智能检测、决策技术的工程化解决方案,通过工程化解决方案调整对应参数,获得大量带标注的数据集后,第二步我们训练一套端到端的多模态学习和强化学习的方案。
整个自动导播工程化系统实现分为三部分:
  1. 信息提取:包括设定延时内的音视频特征提取,人体检测,面部表情检测,事件检测等。
  2. 信息挖掘、分析与关联:对提取的音视频特征,进行挖掘、分析,得出决策导播的关键信息。包括对多镜头进行人物匹配,针对人物特征、声音特征、乐器、事件生成多个推荐的切镜时间点和镜头数据推荐。
  3. 决策与后处理:这一部分对生成的多个导播信息进行分析耦合,解算出最终的决策信息:切镜时间、机位、剪裁画面大小、运镜效果。作用在超高清的视频输入流上。同时对生成的导播输出流进行自动后处理,包括色彩、分辨率、镜头风格化、特效等。
第二步的大型端到端学习方法,预计使用基于多模态的注意力网络和强化学习方法,针对用工程化调参得出的大量数据集,和一部分半自动标注的各领域高水品导播视频,在多个域做自适应迁移学习,最终训练出一套端到端的人工智能系统。在这一部分,需要攻克非常多的技术难题:包括多模态学习依托的大型模型和极长的训练时间在工程化中的剪枝、压缩问题;基于模型搜索的学习方法的可解释性;训练完成后,后期加入新数据集与做域间迁移学习的再训练优化等问题。