基于Web的概念实例与属性自动提取及分类方法研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:lyre1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识工程是人工智能的一个应用分支,指的是运用人工智能的原理、方法和技术,以知识为处理对象,去挖掘、构建和完善一个知识系统的学科。知识工程的主要研究内容包括知识的表示、知识的提取和知识的运用等三部分。在知识的表示中,概念是其核心的元素,因此知识的提取大都是以概念为基本单元的提取。随着互联网信息时代的到来,知识工程拥有了海量数据的输入,从规模庞大的无结构化或者半结构化的文本中抽取出概念相关的知识,对于知识库的构建、扩充和完善具有非常大的指导作用。因此,知识的提取成为当前研究所关注的热点,也是本文关注的重点。  本文的主要工作包括以下几方面:  1)对于概念实例和属性的提取,针对当前基于模式的方法召回率往往比较低的问题,本文提出了一种基于并列结构的概念实例和属性的同步提取方法,通过综合利用并列结构模式和上下文模式等两种模式的优点,在传统的基于上下文模式的提取算法之前,首先使用并列结构模式去获得一些语义十分相似的词语集合,这些语义相似的词语集合在融入到基于上下文的提取算法中时能够使得本文的方法获得更多的候选概念实例和属性,实验结果表明本文的方法在准确率不下降的情况下能够获得较高的召回率。  2)对于实体实例细分类任务,针对当前的分类方法采用的特征都比较朴素而导致准确率不高的问题,本文提出了一种混合多特征的实例细分类方法,算法的输入是每个类别的种子实例。除了使用传统的上下文窗口特征和词义消歧特征,本文还融入了三种新的特征:词聚类特征、实例相关特征和类别特异性特征。实验结果表明,这种混合多特征的方法能够大大提高实例细分类的性能。  3)对于商品评论中的属性词抽取,针对当前表现最优的Bootstrapping算法准确率不高的问题,本文提出了一种基于半指导的商品评论中的属性词抽取方法,在原有的Bootstrapping方法中融入一个基于上下文特征的自学习的分类器。算法的输入是人工标注的少量属性词和情感词作为原始的训练语料。实验结果表明,这种新的融合上下文特征的Bootstrapping框架能够大大提高实验结果的准确率。  综合以上三个方面的研究成果,本文认为在概念知识的自动抽取的相关任务中,人工输入都会带来结果的大幅提高,无论输入是一些人工制定的模式,还是人工标注的实例和属性。但是对于海量文本来说,较多的人工输入会耗费大量的人力和时间,因此弱指导的方法更加适合这些任务。在未来的工作中,将尝试引入一些从结构化资源中获得的数据来代替人工输入去获得更好的结果。  
其他文献
近几年,随着移动互联网的飞速发展,智能手机终端和移动操作系统都取得了长足的进步,智能手机终端遍地开花,移动操作系统如iOS,Android等都取得了巨大的成功,拥有大量的用户量。在移
动画电影逐渐成为银幕上一种被人们普遍接受的艺术娱乐形式,其画面往往包含多种不同风格的对象,卡通对象和水墨画相交融的场景更是经常出现,因此,如何有效地实现不同艺术风格
随着各类移动终端的普及,对高带宽业务的需求也日趋明显,对互联网的数据传输能力也提出了更高的要求。提高网络传输效率的方法很多,但如何适当的降低文件的冗余度,提高文件的利用
随着计算机网络技术的不断发展,WEB网站包含的内容已经涉及到人类生活的各个方面,给人们带来了极大的便利。其中,商品交易类型的网站因其带来的巨大利益而迅速发展,但是在艺术品
基于照片序列的三维重建是指从多个角度对一个现实三维场景拍摄照片,并从中恢复出场景的三维模型和表面纹理的技术。这是计算机视觉和图形学领域一个近年来非常热门的研究领域
随着城市化进程的快速发展,汽车数量急剧增长,而许多城市道路建设滞后,这样便会导致城市交通拥堵,交通事故频繁以及环境污染等问题日益突出。近年来,为了缓解这些问题,智能交通系统
互联网应用的日益普及化和云计算的浪潮,给我们的生活中带来了非常多的高效网络应用,其中就包括云存储类应用,使得无附加硬件化的备份服务得到了实现。在云存储网络备份应用得到
数据库的关键字检索算法能够提供一种像信息检索一样简单的接口,输入想要查询的关键词,即可返回所需要的数据;掌握一门结构化查询语言成本太高,关键字检索大大降低了使用数据库
电力市场化和信息化的发展趋势,要求未来的电网能够朝着安全、可靠、稳定的方向发展,因此,设计一种有效可靠的电力数据传输系统,实时地获取各种电力数据信息如电流、电压、功率等
REESSE1+公钥密码体制开辟了公钥密码研究新的方向,该体制提出三个数学难题,是一种基于多难题的公钥密码体制,可能成为量子计算机时代的备选加密方案之一。三个难题分别是:多变量