论文部分内容阅读
本文所研究的信息自动抽取依据足球新闻信息的构成特点,抽取其中的关键信息。根据要抽取的关键信息在文本中的性质不同,抽取任务可以再细分为比赛事件信息抽取和动词事件信息抽取两个子任务。比赛事件信息的抽取主要抽取时间、地点、比赛性质、比分等与一场足球比赛相联系的信息。动词事件信息的抽取主要指抽取出一场足球比赛中的进球事件和红黄牌事件中相关人物、时间等信息。动词事件信息突出表现了具体的时间点上的信息。因为抽取内容的不同,所以在实际抽取中两个任务相对独立。
在信息抽取方法上,本文以模式匹配为基本方法,利用事件框架抽取事件信息。在模式的获取和表示方法上,侧重于语义知识的利用。通过分析动词的论元结构,考察同一动词事件的不同表达模式,并总结相邻动词论元角色的共享关系,来定义抽取模式。
本文的工作主要包括以下四个方面:
1.建立语料库。本文建立了一个关于足球新闻文本的语料库。足球新闻文本指详实报道比赛过程的新闻文本,即实际描述比赛过程的文本,而非赛前前瞻或赛后评论一类与足球有关的次要报道。在收集足球新闻语料时,考虑了语料的来源分布,单个文本大小,文本分割标注等问题。建好的语料库将为接下来的信息表达模式研究、知识库建设、自动抽取实现三个方面的工作提供研究用的语料。
2.分析足球新闻文本的信息表达模式。本文分析了足球新闻文本中的比赛事件信息和动词事件信息的表达模式。比赛事件信息的表达模式的主要特征是多个相关的单项信息常常会组合在一起,如“队伍名+比分+主客场”。动词事件信息的表达模式分析包含了对动词事件内部表达以及一个时间点上多个动词事件关联性的分析,其中动词事件的内部表达模式,即以动词为中心的包含相关的论元角色的事件框架是分析的重点。
3.建立信息抽取知识库。本文的知识库包含了词典和规则库。词典方面,重点建立了足球比赛各类专名词典和动词词典。专名词典包含球场、人名、队名等子类,以领域和语用为原则收录词语。动词词典记录了代表各类动词事件的动词。规则库方面,建立了动词事件规则库和动词事件关系库。在动词事件规则库中,总结了动词事件内部的基本模式、变化模式。动词事件关系库则记录了动词事件之间的联系,主要是记录各类动词事件的论元共享情况。
4.自动抽取程序的设计与实现。本文的程序设计基于C#语言环境,突出了面向对象的思想,根据足球新闻信息的大小,由大到小定义了代表单个新闻文本、代表单个比赛,代表单个关键句、代表单个动词事件的类,每一个小类可以作为上一个大类的属性。另外还设计了用于保存词表、保存抽取模式的独立类和提供抽取方法的工具类。信息自动抽取的实现流程上,根据词典等资源对文本进行预处理,以事先构筑的识别模式和抽取模式为基础,对抽取模板要求的信息进行抽取。其中对动词事件表达模式的表示和匹配是以微软.NET框架类库的正则表达式类为基础来实现的。