中国中文信息学会信息检索专委会

CCIR CUP 2022 科大讯飞-全国信息检索挑战杯

CCIR CUP 2022 科大讯飞-全国信息检索挑战杯

赛题一:通用事件属性抽取

赛题背景:

  信息抽取(Information Extraction)任务将自然语言中的非结构化信息处理为结构化表达,是处理海量文本数据的重要手段。由于自然语言本身的多样性,及词法、句法的复杂性,信息抽取任务常被认定为人工智能领域的困难问题。      事件抽取(Event Extraction)是信息抽取的重要研究方向,在社交媒体、商务金融等垂直领域拥有广阔的应用前景。当前较多事件抽取任务仅识别有限事件类别,面对日常生活中的海量新闻事件存在一定局限性,开放信息抽取(Open Information Extraction)任务较多通过三元组表示相关信息,标注信息丰富度不足、灵活性欠缺。本赛题结合两类任务特点,主要考察事件通用属性抽取,不需人工定义事件类型与模式,同时具备较好的信息丰富性、标注灵活度,便于下游任务进一步分析、处理。

赛题任务:

  面向新闻知识库构建、突发事件检测等应用,提供包含新闻事件的多来源文本数据,标注主体、时间、地点等事件通用属性信息,将自然语言中的非结构化信息转为结构化表达,考察信息抽取领域通用事件属性抽取能力准确性。

赛题二:基于金融财报中的混合表格与文本数据的问答

赛题背景:

金融财报是一个公司按照季度或者年度向其股东或者投资者发布的公司经营及财务状况的报告书。金融财报能帮助股东或者投资者了解企业在上一个财务时间段的经营状况,并能进一步帮助他们做出经济决策。金融财报中一般会包含大量的半结构化的表格和非结构化的文本数据。为了能够从金融财报中筛选出有价值的信息,金融行业从业人员往往需要花费大量的时间来阅读和理解这些数据。为了减轻这一环节的工作量,我们希望构建智能的Hybrid QA模型,以辅助金融从业者更快的理解混合有表格和文本内容的金融财报数据。理想的Hybrid QA模型需要能同时理解金融财报中的半结构化的表格数据和非结构化的文本数据,并基于这些数据以自然语言的形式回答一些专业问题。因为金融财报中包含有丰富的数字(如金额,时间等),为了能够回答这些专业的问题,所设计的QA模型往往还需要具备离散推理的能力。

赛题任务

给定从金融财报中筛选的一个半结构化的表格和几个与该表格相关的段落(一般不少于2个),当收到一个与之相关的自然语言形式的问题后,要求模型能够根据表格和段落给出该问题的相应的答案。

在该任务中,半结构化的表格存储为一个二维数组,与该表格相关的文本段落以及问题都以字符串形式存储。问题分为两种类型:事实类的问题和假设性的问题。其中,事实类的问题是可以基于给定的表格和段落来回答的,如:“What is the net profit in 2019?”。而假设性的问题是通过在事实类的问题中添加一个假设而来,如:“What would the net profit in 2019 be if the revenue in 2019 were $38,473 instead?”  

Previous post
CCIR CUP 2021 全国信息检索挑战杯