Web信息抽取中的若干关键问题研究

被引量 : 0次 | 上传用户:gtghs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Web应用的快速发展,互联网上的信息资源越来越丰富。在此背景下,Web信息抽取技术应运而生。Web信息抽取是一种从海量的数据中准确获取用户所需的事实信息的处理技术,涉及实体识别与抽取、关系抽取、实体消歧、观点挖掘和倾向性分析等诸多问题,目前已成为Web领域中的研究热点之一。本文围绕Web信息抽取领域中的两类关键问题——命名实体消歧和倾向性信息抽取——开展了研究。命名实体消岐旨在消除Web中一个命名实体在指代概念上的歧义,从而确定其正确指代的实体。由于Web环境中一个命名实体指称项可以对应多个实体概念,如命名实体指称项“华盛顿”既可以指代美国总统乔治华盛顿也可以指代首府华盛顿哥伦比亚特区。因此,命名实体消歧技术在Web问答系统、信息检索、机器翻译等应用领域有着重要的应用价值。倾向性信息抽取关注于从海量的非结构化的web数据中挖掘出观点信息,继而分析信息发布者对其发布信息的情感倾向性。倾向性信息抽取在现代生活中有着诸多的应用,例如,可以帮助企业准确获取用户对产品的评价,以便优化营销策略;可以为政府部门在舆情监控、突发事件处理等提供决策依据。本文针对命名实体消岐和倾向性信息抽取中存在的主要挑战开展了算法设计、实验验证等工作。论文的主要贡献可总结为如下几点:(1)提出了一种基于维基百科的命名实体消歧方法,通过实体指称项识别、候选实体库构建以及命名实体匹配等过程有效地实现了命名实体消岐。我们在该方法中提出了一种新型的待消歧实体指称项与候选实体之间的相似度计算方法,并利用维基百科的页面来挖掘实体之间、实体指称项与候选实体间的语义关联,最后在WISE Challenge2013数据集上验证了该方法的有效性。(2)提出了一种基于句法依存关系和SVM的情感评价单元识别算法。情感评价单元在一个情感句中表现为情感倾向词和它修饰的评价对象的搭配,其直接决定情感句的情感倾向性。论文提出的算法首先通过简单模式匹配抽取所有可能的候选情感评价单元,然后通过SVM模型对候选情感单元集合进行过滤。在分类过程中,我们提出了基于句法依存关系来自动构建大规模训练集的方法,提高了分类模型训练的效率。在实际数据集上的实验表明该算法较以往的算法在准确率和召回率上均有明显的改善。
其他文献
随着市场经济的发展,配送对经济活动的影响越来越明显。车辆路径问题(VRP)一直是配送活动优化的重要内容,是最大限度的降低配送成本、提高顾客满意度的保障。本文在全面综述
随着中国经济改革的不断深入,中国银行业,特别是国有银行面临着前所未有的改革压力,构建大银行和中小银行大中小共生的有效竞争的银行业市场结构是社会主义市场经济体制的必
<正>世界卫生组织认为,患者的依从性是指人们的行为与健康照护提供者所给予的推荐规范一致性的程度[1]。其中,人们的行为包括服药、遵循健康饮食、健康生活方式等。由此,我们
针对数字图像可逆水印的高嵌入容量和不可见性的权衡问题,该文提出一种基于分块自适应压缩感知的可逆水印算法(ReversibleWatermarkingAlgorithmBasedonBlockAdaptiveCompresse
关于主权债务危机的治理,大多数研究以主权债务重组为对象,而忽略了纾困环节,也缺乏对于主权债务危机治理的核心问题:集体行动如何达成进行分析。本文将尝试回答如下问题:在主
中国传统民间文化源远流长,有着五千年的历史。从1950年代到1960年代开始,我国拥有特色的传统民间元素的动画作品,已经登上国内外各大影视银幕上,简而言之,具有本土的特色以
新媒体时代的剧烈变革,使得互联网不仅深刻地改变着人类的思维模式和生活方式,也极大地影响着人类的政治生活和社会稳定。快捷迅速的互联网能够使网民在自由、民主、开放的网
天线优化是电磁领域的一个重要研究方向。实际工程中的天线优化设计通常为多目标优化问题(multiobjective optimization problem, MOP)。随着智能计算的发展,多目标进化算法(
创新从来都是时代发展的核心主题!无论是农耕文明向工业社会的进步,还是工业社会向科技时代的跨越,千百年来人类社会所经历的历史时期,都是基于阶段性技术创新所引发的生产力
工作激情是一个包含认知、动机和情感三种成分的具有丰富内涵的积极心理学新概念。激发工作激情可以产生最佳的工作成果,并提高员工的工作满意度和心理幸福感,因此,工作激情