论文部分内容阅读
随着互联网信息时代的到来,蕴含在海量信息中的知识却相对分散,如何从海量的文本信息中抽取特定的有用的知识,是当下文本处理领域亟待解决的问题之一。微博是目前比较热门的媒体,微博中包含着丰富的文本信息,数据海量且更新速度快,因而成为新知识传播的重要平台,也是获得最新知识条目的重要来源。然而,由于微博兴起时间不长,以及微博文本短小、信息量少,面向微博的知识获取问题还远未得到充分的研究和解决。为此,本文从实际问题出发,主要解决从给定的少量种子知识条目中进行学习,以从微博中自动抽取更多类似知识条目的问题。在本文中,我们首先结合传统的规则学习方法,提出了一种基于依存句法的模板匹配算法,根据句子的句法依存关系,仅分析有直接依赖关系的句法成分,降低了规则模板对训练集句子结构的依赖程度。经实验表明,该算法虽然精度偏低,但能够仅由少量的种子知识条目来获得较高的召回率,因而可以用于对种子知识条目集的大规模扩充。在此基础上,本文实现了基于统计的知识条目抽取算法。在传统的统计模型中,基于条件随机场CRFs的方法获得了当前的最好性能。然而,由于微博中句子短小、表达方式随意,且与传统知识抽取任务相比,上下文较少,这使得CRFs在召回率方面表现较差。为此,我们在传统CRFs的基础上,引入依存句法分析和词向量技术,前者使得统计模型跨越了词与词之间距离的限制;后者则将单一的词扩展为向量表示,并通过聚类算法为每个词分配类标,并将类标应用到特征模板中去,从而使得CRFs的模板泛化能力大大提高,显著提高了算法的召回率和整体性能。最后,本文将上述方法应用到微博知识条目抽取系统中,取得了较为理想的效果。