论文部分内容阅读
文本挖掘(Text Mining)技术是利用计算机程序自动读取和理解自然语言文本,并从中发现有价值的信息,从而提高人们的工作效率。随着信息技术的飞速发展和互联网时代的来临,该技术拥有了很大的实际应用价值和广阔的应用前景。在处理文本挖掘问题的方法中,基于机器学习(Machine Learning)的方法得到了广泛的应用,在很多实验中取得了较好的效果。特征表示(Feature Representation)是机器学习方法中至关重要的一步,很大程度决定了系统效果的高低,然而在传统的基于局部特征的监督学习(Supervised Learning)策略中,由于已标注训练集中的样本数量有限,存在着数据稀疏问题,即产生了很多低频特征,由于缺少信息量这些特征在机器学习过程中往往得不到好的利用,这种影响在文本挖掘和自然语言处理任务中更为严重。针对此问题,本文研究如何利用未标注数据将这些被忽略的特征转化成更富有信息量的新特征,从而可以激发出这些特征潜在的作用,达到提高系统的性能的目的。本文提出了一种新的特征构建方法—特征耦合泛化(Feature Coupling Generalization, FCG),该方法利用原始特征在海量未标注数据中的共现信息以及特征间的概念层次关系生成新的特征。相比于原始特征,新特征具有更丰富的信息量和更泛化的表示。本文讨论了该方法中各种因素对系统性能的影响,并通过实验验证该方法在文本挖掘任务中的效果。本文将FCG方法应用于三个经典的文本挖掘任务:命名实体识别(Named Entity Recognition)、关系抽取(Relation Extraction)、文本分类(Text Classification),对每个任务进行了详细的研究,从不同角度比较了经典特征与FCG方法的效果、检验了FCG方法所带来的贡献,并通过观测低频特征在不同方法中的效果分析了FCG方法有效的原因以及对数据稀疏问题的解决情况。实验结果显示,FCG可以将传统方法中被忽略的低频特征转化为有效的特征,在传统方法的基础上有显著的提高,而且FCG方法可以很容易的应用于海量的未标注数据,这是相比于其他半监督学习方法(Semi-supervised Learning)的优势。更有趣的现象是,仅仅使用FCG方法所生成的新特征的效果普遍好于经典的特征,这说明该方法有可能在普遍的机器学习问题中取代经典特征表示方法,为特征生成的研究开辟了新的思路。此外,在公开评测数据上与其他研究者的对比结果显示,基于FCG方法的系统取得了很好的效果。