知识图谱作为推动互联网和人工智能发展的核心驱动力,已成为当前人工智能研究的最前沿。在刚刚结束的 CCKS 2019“知识图谱问答”大赛中,百度智珠团队以 F1 Score 0.73545的好成绩夺冠,再次确立了百度在知识图谱领域的领先优势。
CCKS 全国知识图谱与语义计算大会是中国中文信息学会语言与知识计算专业委员会主办的专注于知识图谱与语义计算领域的高水平学术盛会。目前 CCKS 每年的参会人数在中国知识图谱与语义计算领域是全国最多的,参赛的单位都是国内相关领域的顶尖学术机构(如清华、北大、中科院等)和领军企业(包括百度、阿里、华为、小米等)。
在知识图谱问答项目中,高手如云,包括华为、网易、大连理工大学、苏州大学等全球知名企业和高校研究院所队伍的参与。百度智珠团队凭借多年在知识图谱领域的积累,深入分析图谱问答系统的难点,秉持技术创新,最终以基于答案语义排序的方案斩获第一名。
▲图1 百度智珠团队荣获 CCKS 2019 知识图谱问答第一名
百度智珠团队,致力于将百度多年积累的知识图谱构建及应用能力赋能企业,协助企业打造面向行业的知识图谱及知识应用。百度智珠将多模态知识理解、知识图谱构建、多模态智能搜索等多种能力整合为统一的企业知识管理智能平台,为企业组织、应用、管理自有知识和第三方知识融合,形成统一、智能、易用的知识管理系统,提供强有力的技术支撑。
本次知识图谱问答评测任务全称是基于中文知识图谱的自然语言问答,简称 CKBQA (Chinese Knowledge Base Question Answering)。即输入一句中文问题,问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。
知识图谱问答是自然语言处理领域当前最热门的研究方向之一,是互联网知识获取的新入口,也是搜索引擎和对话系统等行业的关键技术,吸引了工业界和学术界大量的关注。
本次评测任务在去年的开放领域问答的基础上,增加了适量规模的金融专业领域的问题,这就要求问答系统不仅要具备处理开放领域的浅层问题的能力,还必须具备处理领域知识的深层问题的能力。
本次评测主要有两大挑战:
首先,本次评测是在开放领域的问答,问题覆盖面广,综合难度更高。从问题的分类看,问题集涉及的领域是多样的,包括金融、文学、电影、游戏、生活甚至常识等多种领域;从知识库的量级来看,测评的知识库包含千万级别实体、亿级别的边、百万级别的实体类型,大大增加了知识语义理解难度;从问题的难度角度看,本次评测既包括简单问题,也包括复杂问题,而且需要多个三元组回答的问题占了50%以上的比例。
其次,本次评测增加了金融领域的问题,因此对深层的领域知识理解提了更高要求。与开放领域图谱相比,专业领域知识的广度更窄、实体粒度更细;同时推理的链路更长、应用的复杂性更大。
针对以上挑战,百度智珠团队提出端到端的核心实体链接与子图编码的语义匹配算法系统来解决。第一步,基于子串匹配和命名实体识别等方法识别问题中的指称;第二步,对指称召回的实体进行打分,选择出问题的核心实体,即实体链接;第三步,定义多种子图召回模板,召回核心实体大量的子图;第四步,对每个子图抽取字面匹配度、浅层语义匹配、深度语义匹配度等特征,排序得到答案。
▲图2 系统框架流程:指称识别 → 实体链接 → 模板匹配 → 路径排序
百度智珠团队在实现这一过程中,引入了两个创新方法,分别是:端到端的核心实体链接与子图编码的语义匹配算法。
▲图3 模块细节:实体链接和路径排序
实体链接组件把问题中提及的实体链接到了知识库,并识别问题的核心实体。为了提高链接的精度,链接组件综合考虑了实体的子图与问题的匹配度、实体的流行度、指称正确度等多种特征,最后利用 LambdaRank 算法对实体进行排序,得到得分最高的实体。
子图排序组件目标是从多种角度计算问题与各个子图的匹配度,最后综合多个匹配度的得分,得到出得分最高的答案子图。
针对千万级的图谱,百度智珠团队采用了自主研发的策略来进行子图生成时的剪枝,综合考虑了召回率、精确率和时间代价等因素,从而提高子图排序的效率和效果。
针对开放领域的子图匹配,采用字面匹配函数计算符号化的语义相似,应用 word2vec 框架计算浅层的语义匹配,最后应用 BERT 算法做深度语义对齐。
除此之外,方案还针对具体的特征类型的问题进行一系列的意图判断,进一步提升模型在真实的问答场景中的效果和精度,更好地控制返回的答案类型,更符合真实的问答产品的需要。
中文知识图问答任务,是衡量机器理解人类语言综合水平和知识的重要方式。CKBQA 知识图谱评测取得的成绩,将有力推动问答技术和产品的发展。
同时,图谱问答技术将落地到下一代搜索引擎和对话系统等行业中,为数亿的用户提供更精准的问答服务。
本次大会为知识图谱在专业领域的技术突破带来更开放的思维空间和更广阔的研究视野。未来,百度智珠团队也将继续秉持开放学习、协同创新的理念,积极把握相关学术、产业交流机会,与 AI 各界展开更广泛、更深入的探讨与合作,加快 AI 技术落地,努力为行业带来更高效的智能化解决方案。
上一篇:智能手机复古是不是重新定义
下一篇:盲盒可能是下一个孵化IP的新渠道