论文部分内容阅读
实体的歧义是指同一个实体名称可以对应到多个概念上,为了自动分析文本或构建大规模知识库,精确细致的实体消歧工作不可缺少。近年来随着社交网络的高速发展,互联网上的信息呈现出爆炸式地增长,如何自动化地分析组织实体相关信息受到越来越多计算机科学工作者的关注。机构名消歧是实体消歧的一个分支,它仅关注机构名类型的实体消歧。本文主要面向twitter数据的机构名消歧,相对于传统的文本信息,存在着上下文信息少,拼写、语法不规范等问题。此外,由于机构名数量庞大,为每一个机构都标注训练数据是不现实的,因此就可能出现某机构名在已标注数据集中从未出现,即训练集和测试集机构名不重合的问题。针对以上提到的面向twitter数据的机构名消歧任务难点,本文的主要工作如下:(1)分析了机构名消歧任务的难点。针对twitter数据上的机构名消歧任务,通过数据统计详细分析了任务的难点,如Twitter信息短,句法不规范,机构名歧义性分布不均衡,训练集和测试集机构名不重复,现有知识库对机构名的覆盖范围有限等。此外,归纳总结了现有工作的优缺点。(2)研究了基于通用类型分类特征的机构名消歧方法,构造了一个基于通用类型特征的机构名消歧系统,并将其作为基准系统。通用类型的特征从本质上讲,不是词汇化特征,而是待消歧twitter消息与机构相关信息的相似度。该类型特征的建立需要利用机构相关信息,而机构网站主页是一个重要的信息来源。但是由于机构主页缺失和难以提取的问题,本文又引入了多种不同类型的机构相关网页作为数据源。通过实验,验证不同类型的数据源以及不同类型的特征对机构名消歧的作用。(3)研究了一种基于半监督学习的优化方法。通用分类特征计算过程易引入噪声,从而导致了其消歧的精确率和召回率均偏低,另外,没有针对每个机构名做优化。因此,这里考虑按照分类置信度挖掘出少量精确率较高的种子作为已标注数据,并将其它数据作为未标注数据,利用半监督学习方法予以解决。最后,针对半监督方法性能偏低的问题,又提出了两阶段融合方法,即第一阶段通用分类结果和第二阶段半监督分类结果的融合。实验结果表明,基于半监督学习的优化方法能在一定程度上提高第一阶段有监督分类的消歧性能。(4)研究了一种基于特征增强的自适应优化方法。针对半监督优化方法未能充分利用第一阶段分类结果的缺点,这里基于每个机构在第一阶段分类的结果,分别抽取出新的词汇化特征,并加入到原有的特征空间,然后训练得到机构特定的自适应分类器。同时,为了克服测试集数据稀疏问题,又进一步引入了大量未标注数据。实验结果表明,基于特征增强的自适应方法能有效地提高通用分类器的消歧性能。