MULTI-MEDIA LAB

研究人员
项目简介

项目背景:



科学研究的发展需要促进需求聚焦、成果传播和落地、人才科学评价、资源合理分配、推进教育和培训。由于缺乏满足科研全周期需求的权威在线科研平台,当前成果发布仍以会议和期刊为中心,周期长,评议资源不足,受到主客观干扰,缺乏深度互动,难以带动落地。科研相关数据散布多种平台,且不能保证永久、可追溯在线。缺乏可信赖的知识产权溯源机制等因素也限制了大范围学术共同体深度合作的及时开展。

新一代科技创新评价和支撑平台 Phocus 旨在建立一个服务于学术共同体创新全链路的学术平台,关注科研人才的原始创新,关注并满足科研人才以及各研究机构的各层级需求,挖掘并积极传播多方向、多交叉的学术成果,维护学术共同体中的每一位科研人才的权利。同时,一个健康的学术共同体强依赖一个立体的合理的评价体系,我们将基于已有的科研数据与各平台沉淀的学术讨论形成一套合理的人才与热点的科学评价体系,来帮助合理分配资源,从而达到科研成果推动国家进步的利益最大化。


Phocus 科研贡献因子



Phocus 科研贡献因子是评估作者和论文的新型学术评估机制,通过考虑引用内容和方式更准确地评价成果的价值。
Phocus 会分析论文中含有引用的句子及其上下文,预测论文对引用文献的情感极性。此外,Phocus 还结合论文引用的总数量、每句引用的数量、作者重叠和参考文献的数量等因素,将引文粗略划分为 4 类,对论文中的所有参考文献进行排序,结合分类结果和排序得到针对一篇论文的某个参考文献的局部影响因子。引用文献的全局影响因子是引用文献的局部影响因子和总影响因子的乘积。因此,一个作者的学术影响因子是他所合著的每一篇论文的贡献之和。Phocus 学术影响因子介于 0-1 之间,数值越大,影响力越高。
以计算机学科某位学者Y和同领域2019年图灵奖得主 Pat Hanrahan 为例,Phocus 根据全网数据分析引用行为、结合多模态情感分析、科研生态模型,得出学者Y的科研贡献因子为0.4,Pat Hanrahan的科研贡献因子为0.52,其二者的科研贡献因子存在30%的差距。


研究课题 1 多模态、多媒体的引用情感分析



打破唯被引量论的关键在于考虑作者对被引文献情感倾向,从而评估被引文的贡献。
首先,一篇论文的所有参考文献的贡献是不同的。以下图为例,按照作者观点,引文1-17之间成果重要性是有差别的, 且14-17号引文的重要性大于1-13号引文。

其次,对同一篇引文的情感也可能不是单调的。例如在下图中,作者对91-98号论文的情感先扬后抑,对参考文献的成果部分表示肯定,部分表示否定。


另外,一篇论文的贡献不仅可以体现在论文运用上。在YouTube,github 等网络平台上上还会有文字、代码、音视频等不同形式的论文引用和评价。


考虑到上述情况,在引用情感分析方面,我们将对基于情感的引用文字分析和基于多模态信息融合的活跃度与贡献度评估两方面进行研究。


基于情感的引用文字分析


分析作者对一篇引文的情感,可以考虑引文的上下文环境。
在下图中,黑色句子为引文所在句子,绿色句子为引文前文,黄色为引文后文。前文与后文对判断引用的情感起到重要作用。


对引文的评价具体落在 cycle-consistency loss, the distance preserving loss等具体部分。
我们对引文评价方法的是实现框架如下图所示,创新点有:1)关注引文内容,而不是引用行为;2)结合引文上下文逻辑关系,而不是孤立地分析引文;3)引入情感分析;4)拆分被引工作,将评价细化到被引工作的各个部分。


基于多模态信息融合的活跃度与贡献度评估


针对在论文引用之外的贡献,我们综合AMiner,Google Scholar,Semantic Scholar,YouTube 等平台的功能,设计了细粒度多模态、多媒体分析的评估体系。如下图所示,对于包括幻灯片、网页、代码仓库等文字形式的资料,我们会通过文本解析和提取元数据的方式获得它们的文本特征;对于视频资料,我们使用COVAR提取音频特征,使用OpenFace提取视频特征。结合文本特征、音频特征、视频特征进行多模态信息融合,并结合 Phocus 学术因子,可以计算出一篇论文或一项成果对于作者的贡献度。对一位研究者的每一个成果的贡献度都会影响对他的整体评价。


研究课题 2 知识图谱和学术传承模型



在算法方面,为了构建更好的人才评价体系与鼓励细粒度的论文成果交流推广,
当前研究者了解已有学术成果和最新发现通常通过在提供论文检索服务的平台对感兴趣话题进行关键词搜索来实现。但是学术成果或思想在不同时期或不同领域可能用不同的词汇来描述,不能简单用关键词索引。 所以我们需要更好的综合群体智慧、挖掘交互关系,结合专家意见形成相关内容知识图谱和可视化学术传承模型。
由于一项学术成果从原始创新到被关注和落地推广不同阶段有不同的传播规律,为了更好地发现并传播原始创新和多方向、多交叉的学术成果,我们需要探索学术生命周期规律,更准确评价和追踪热点领域、 学者和成果。

研究课题 3 结合实名制和区块链技术的用户管理和数据溯源



当前的论文发表通常是在 Arxiv 等平台上实名发表,且不涉及作者隐私,可以规避广域开放社区的数据隐私问题。2021年爆出多个学术不端相关新闻,包括想法剽窃,论文抄袭等等,都依靠 Arxiv 平台的上传时间认证等来。但这依旧不能保障很多科研工作者的权益——一方面,Arxiv 通常只有完备的论文,它并不能记录一些细粒度的想法和成果,且并不是所有方向的科研工作者都有使用 Arxiv 的习惯,且 Arxiv 上没有一篇中文文献。所以我们需要一套基于区块链的分布式记账系统来保障、加持成果的认证与溯源。


平台建设


平台将广泛服务各 G 端、B 端和 C 端用户,平台中的诸多能力均可二次打包成定制化服务给到各类用户。
从平台应用层出发,平台主要分为三个大的应用方向,包括:
  • 加权影响因子、影响趋势预测。这部分会依托于我们核心的 CSI-index 打包出多个功能模块,包括依据新的影响力评价系统,生成各领域各学科的影响力指数,热门趋势预测报告,生成能广泛引发讨论的问题、多媒体推文等等。
  • AI 搜索召回。依托新的 CSI-index 我们优化了搜索召回准确度,基于评价系统,生成包含更科学结果的召回卡片、论文溯洄功能、相关研究脑图等等功能集成在 AI 搜索召回功能里。
  • 小粒度成果分享社区。为了缩短科研成果发布周期,我们聚焦搭建一个小粒度成果分享社区,让用户可以在平台上发布想法、demo、短论文、视频等等多种形式的成果内容,沉淀在平台进入影响力评价系统与媒资的循环中。