论文部分内容阅读
近年来,随着Web应用的快速发展,互联网上的信息资源越来越丰富。在此背景下,Web信息抽取技术应运而生。Web信息抽取是一种从海量的数据中准确获取用户所需的事实信息的处理技术,涉及实体识别与抽取、关系抽取、实体消歧、观点挖掘和倾向性分析等诸多问题,目前已成为Web领域中的研究热点之一。本文围绕Web信息抽取领域中的两类关键问题——命名实体消歧和倾向性信息抽取——开展了研究。命名实体消岐旨在消除Web中一个命名实体在指代概念上的歧义,从而确定其正确指代的实体。由于Web环境中一个命名实体指称项可以对应多个实体概念,如命名实体指称项“华盛顿”既可以指代美国总统乔治华盛顿也可以指代首府华盛顿哥伦比亚特区。因此,命名实体消歧技术在Web问答系统、信息检索、机器翻译等应用领域有着重要的应用价值。倾向性信息抽取关注于从海量的非结构化的web数据中挖掘出观点信息,继而分析信息发布者对其发布信息的情感倾向性。倾向性信息抽取在现代生活中有着诸多的应用,例如,可以帮助企业准确获取用户对产品的评价,以便优化营销策略;可以为政府部门在舆情监控、突发事件处理等提供决策依据。本文针对命名实体消岐和倾向性信息抽取中存在的主要挑战开展了算法设计、实验验证等工作。论文的主要贡献可总结为如下几点:(1)提出了一种基于维基百科的命名实体消歧方法,通过实体指称项识别、候选实体库构建以及命名实体匹配等过程有效地实现了命名实体消岐。我们在该方法中提出了一种新型的待消歧实体指称项与候选实体之间的相似度计算方法,并利用维基百科的页面来挖掘实体之间、实体指称项与候选实体间的语义关联,最后在WISE Challenge2013数据集上验证了该方法的有效性。(2)提出了一种基于句法依存关系和SVM的情感评价单元识别算法。情感评价单元在一个情感句中表现为情感倾向词和它修饰的评价对象的搭配,其直接决定情感句的情感倾向性。论文提出的算法首先通过简单模式匹配抽取所有可能的候选情感评价单元,然后通过SVM模型对候选情感单元集合进行过滤。在分类过程中,我们提出了基于句法依存关系来自动构建大规模训练集的方法,提高了分类模型训练的效率。在实际数据集上的实验表明该算法较以往的算法在准确率和召回率上均有明显的改善。