论文部分内容阅读
本文以西班牙马德里事件作为实验对象,研究突发事件领域的文本信息特点,探索突发事件模板的自动获取。通过机器学习方法,建立了相关事件模板,用于表述信息各个侧面的特征。并运用匹配和抽取算法,对测试语料进行模式匹配与信息抽取。作者主要完成了以下研究工作:
一、以马德里311爆炸事件的500篇新闻语料作为训练语料,通过向量空间模型表示,以知网(HowNet)为知识库,通过句子聚类进行了事件的侧面抽取,并通过特征模糊向量进行侧面表示。
二、通过有限状态自动机(FA Finite Automata)与概率方法的结合,进行训练语料中特征句型模式的抽取,抽取的结果通过知网(HowNet)中的类别转换,生成泛型特征句型模式库。
三、以马德里311爆炸事件的314篇新闻语料作为测试语料,进行侧面匹配、句型模式对应、槽值填充工作。测试语料以向量空间模型表示后与各侧面的特征模糊向量相乘后比较得到该语料所属侧面。然后按照所提供的有限状态自动机(FA)进行候选句型抽取,对于未确定的候选句型利用特征句型模式库通过最大概率法进行筛选确定,最后对特征句型对应的槽提取槽值填充。