足球比赛新闻信息的自动抽取

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:jeans
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文所研究的信息自动抽取依据足球新闻信息的构成特点,抽取其中的关键信息。根据要抽取的关键信息在文本中的性质不同,抽取任务可以再细分为比赛事件信息抽取和动词事件信息抽取两个子任务。比赛事件信息的抽取主要抽取时间、地点、比赛性质、比分等与一场足球比赛相联系的信息。动词事件信息的抽取主要指抽取出一场足球比赛中的进球事件和红黄牌事件中相关人物、时间等信息。动词事件信息突出表现了具体的时间点上的信息。因为抽取内容的不同,所以在实际抽取中两个任务相对独立。   在信息抽取方法上,本文以模式匹配为基本方法,利用事件框架抽取事件信息。在模式的获取和表示方法上,侧重于语义知识的利用。通过分析动词的论元结构,考察同一动词事件的不同表达模式,并总结相邻动词论元角色的共享关系,来定义抽取模式。   本文的工作主要包括以下四个方面:   1.建立语料库。本文建立了一个关于足球新闻文本的语料库。足球新闻文本指详实报道比赛过程的新闻文本,即实际描述比赛过程的文本,而非赛前前瞻或赛后评论一类与足球有关的次要报道。在收集足球新闻语料时,考虑了语料的来源分布,单个文本大小,文本分割标注等问题。建好的语料库将为接下来的信息表达模式研究、知识库建设、自动抽取实现三个方面的工作提供研究用的语料。   2.分析足球新闻文本的信息表达模式。本文分析了足球新闻文本中的比赛事件信息和动词事件信息的表达模式。比赛事件信息的表达模式的主要特征是多个相关的单项信息常常会组合在一起,如“队伍名+比分+主客场”。动词事件信息的表达模式分析包含了对动词事件内部表达以及一个时间点上多个动词事件关联性的分析,其中动词事件的内部表达模式,即以动词为中心的包含相关的论元角色的事件框架是分析的重点。   3.建立信息抽取知识库。本文的知识库包含了词典和规则库。词典方面,重点建立了足球比赛各类专名词典和动词词典。专名词典包含球场、人名、队名等子类,以领域和语用为原则收录词语。动词词典记录了代表各类动词事件的动词。规则库方面,建立了动词事件规则库和动词事件关系库。在动词事件规则库中,总结了动词事件内部的基本模式、变化模式。动词事件关系库则记录了动词事件之间的联系,主要是记录各类动词事件的论元共享情况。   4.自动抽取程序的设计与实现。本文的程序设计基于C#语言环境,突出了面向对象的思想,根据足球新闻信息的大小,由大到小定义了代表单个新闻文本、代表单个比赛,代表单个关键句、代表单个动词事件的类,每一个小类可以作为上一个大类的属性。另外还设计了用于保存词表、保存抽取模式的独立类和提供抽取方法的工具类。信息自动抽取的实现流程上,根据词典等资源对文本进行预处理,以事先构筑的识别模式和抽取模式为基础,对抽取模板要求的信息进行抽取。其中对动词事件表达模式的表示和匹配是以微软.NET框架类库的正则表达式类为基础来实现的。
其他文献
针对低成本标签不能兼顾安全性的问题,在研究现有安全机制的基础上,提出一种基于混合加密密值更新的RFID(射频识别)安全协议.在性能方面,该协议既吸取分布式RFID询问应答认证
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
广播电视艺术学学科的发展是广播电视行业发展的基础,需要在了解大众传媒的背景下,把握广播电视艺术学学科的走向。文章从科学研究、渠道研究、作者研究、内容研究、受众研究
学位
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
中国戏曲博大精深,历史悠久,是我国重要的非物质文化遗产。作为一种文化遗产,戏曲具有传承性。戏曲传承最直接的方式就是戏曲教育,本文试图通过对河南地方戏戏曲教育团体窝班
学位
本文采用语篇分析等方法研究连接范围为超句子的连词。得出的主要结论是:连词在复句层面的连接意义与超句子层面不完全对应;在书面语与口语中,语篇连接连词的连接功能有不同的
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
从1992年引进大陆的台湾电视连续剧《戏说乾隆》开始,戏说逐渐成为我国历史题材电视剧创作的重要组成部分,也逐渐成为一种典型的当代社会文化现象。本文将戏说作为研究对象,
中文机构名的识别是中文信息处理领域的一项重要课题,也是命名实体识别研究的重要内容之一。中文机构名识别对自然语言处理意义重大:首先,包括中文机构名在内的命名实体识别