中国中文信息学会信息检索专委会

CCIR CUP 2021 全国信息检索挑战杯

CCIR CUP 2021 全国信息检索挑战杯

赛题一:预训练模型知识量度量

赛题背景:

近年来,以BERT为代表的预训练模型在各项NLP任务中取得了重大突破。相关研究表明,预训练模型不仅可以学习通用语言表示,还可以学习结构化的知识,包括常识知识和事实知识。为了更深入地理解预训练模型,我们构建数据集来系统地评估模型的知识含量,不仅考察模型预训练阶段所编码的知识量,同时考察模型是否具备推理能力。为此,我们构造了来自不同领域(历史、军事、医学等)、不同类型(事实知识、常识知识)、不同难度(单条知识、多条知识组合)的问题,把对模型知识量的测评,转换为相应的完型填空问题。当模型能成功填充[MASK]标识符时,则说明该模型掌握了相关知识。

我们希望通过考察模型的知识量,驱动业界对于模型知识表示的研究,实现预训练模型向下游任务更有效的知识转移。 本次预训练模型的知识量评估侧重于考察模型的记忆能力,特别是在few-shot或zero-shot情况下的记忆和能力和多知识组合能力,后期会加入更多的推理类问题,以及考察模型本身的泛化能力。

赛题任务:

本赛题构建了完型填空形式的英文测评数据集,评估预训练模型在9个领域、两大知识类型(事实知识、常识知识)、不同难度任务上的知识含量。

赛题二:智能人机交互自然语言理解

赛题背景:

在产品的研发迭代过程中,为满足用户的各类使用需求,往往需要大量标注数据用于训练才能达成较好的交互效果,而大量的标注数据意味着高昂的成本投入。小样本学习(Few-shot Learning)是机器学习领域近年来新兴的研究方向之一,旨在凭借基础类别中学到的先验知识及少量新类别标记样本,较好的完成对新类别数据的泛化任务,从而减少数据成本投入的需求。另一方面,产品在实际应用中可能经常遇到未经训练的新类别问题,如何识别并处理此种域外问题同样是生产中的常见问题之一。域外检测(Out-of-Distribution Detection)任务旨在帮助产品较好的处理真实使用场景中的未知意图,挖掘出用户的潜在意图,从而帮助提升服务质量。

为了更好的解决智能人机交互产品的自然语言理解任务,本赛题对NLU领域的意图识别及槽位填充任务进行考察。除基本的学习任务外,还期望通过小样本学习任务减少产品对大量新类别标注数据的依赖,通过域外检测任务识别未知意图,摆脱对已知意图的干扰,同时达到尽可能好的学习效果。

赛题任务:

根据用户与系统的单轮对话,识别对话用户意图并进行槽位填充。除基础的意图识别及槽位填充任务外,本赛题额外包括2个子任务: 人机交互-NLU-1(小样本学习任务):根据基础意图类别数据及少量含标注的新意图类别样本,完成新意图类别的识别及槽位填充任务。 人机交互-NLU-2(域外意图检测任务):除识别出训练数据中已知的意图类别外,对于未知意图类别数据进行检测。

赛题三:中文命名实体识别算法鲁棒性评测

###赛题背景: 鲁棒性是机器学习模型的一项重要评价指标,主要用于检验模型在面对输入数据的微小变动时,是否依然能保持判断的准确性,也即模型面对一定变化时的表现是否稳定。鲁棒性的高低直接决定了机器学习模型的泛化能力。在现实世界的应用场景中,模型要面对的是更加纷繁复杂的语言应用方式,待处理的数据里包含着更加庞杂的变化。一旦缺乏鲁棒性,模型在现实应用中的性能就会大打折扣。在测试数据集上获得高分是远远不够的,机器学习模型的设计目标是让模型在面对新的外部数据时依然维持精准的判断。因此,为了确保模型的实际应用价值,对模型进行鲁棒性评测是不可或缺的。

近期,复旦大学自然语言处理实验室发布了模型鲁棒性评测平台 TextFlint(textflint.io),该平台涵盖 12 项 NLP 任务,囊括 80 余种数据变形方法,涵盖了领域相关黑盒变形、领域无关黑盒变形、白盒变形、分组抽样、分析报告等等一系列功能,为研究人员提供一个便捷的模型鲁棒性验证方法。为了构建安全可靠的深度学习系统,消除深度学习模型在实际部署应用中的潜在鲁棒性风险,本赛题针对命名实体任务开展鲁棒性评测。本次评测提供给参赛者的原始数据集训练模型,而验证集和测试集由鲁棒性评测工具 TextFlint 产生,以最终排名依据为新的鲁棒性验证集和测试集的性能表现。

赛题任务:

给定未分好词但有实体标记的中文文本训练数据,设计算法对验证集中词语的实体类型进行预测,其中部分文本经过了鲁棒性评测工具TextFlint的扰动。预测的任务是判断哪些词语是人名(PER),地理位置(LOC),机构(ORG)或行政单位(GPE),并以(B,M,E,S)的格式给出词语的边界。

Previous post
CCIR 2020评测
Next post
CCIR CUP 2022 科大讯飞-全国信息检索挑战杯