基于图书的概念上下位关系和多侧面定义的抽取

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lyhmj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,知识库在信息检索、文本理解等方面显得越发至关重要,但是如何为任意领域构建一个大规模知识库仍是一件非常有挑战性的工作。幸运的是,已有大量的图书在数字图书馆中被数字化,比如,CADAL数字图书馆近十年来已经数字化了260多万册图书,这些图书中蕴含着大量的知识。如果我们可以直接从大量的图书中学习出概念间的上下位关系和概念的定义,这将会对知识库构建产生很大的帮助。在本文中,我们提出了一种基于图书构建知识库的方法,能从大量的图书中分析挖掘出概念的分类体系以及多侧面定义。分类体系主要基于图书目录关系从中抽取出的上下位关系和并列关系,通过概念验证、条件过滤以及排序等步骤来构建。多侧面定义则是:首先通过基于图书目录的搜索引擎从图书中抽取出候选定义,然后再对候选定义进行聚类和排序以找出多侧面定义。通过上述方法,我们可以完全基于数字图书馆中海量的图书来构建知识库。该方法在CADAL数字图书馆的百万册图书中进行了实践,实验结果表明我们的方法是行之有效的。
其他文献
随着无线通信技术的飞速发展,具有低功耗、低成本、自组织独特优势的无线传感器网络(Wireless Sensor Network, WSN)应运而生,并迅速成为21世纪最具影响的十大技术之一,其应
随着互联网信息技术的飞速发展,Web网页信息正在呈现指数级的增长趋势。面对如此巨大的Web信息资源库,搜索引擎已成为用户获取网络信息资源的重要工具。Web链接结构分析算法,
目前,随着通信技术的发展,各个领域都已经进入了一个相对高速的发展阶段,首当其冲的就是计算机行业。计算机在工业,民用,军用等领域都显示出他强大的能力,业务开发者对开发融
网络信息化时代,如何进行简单有效的身份识别与认证,保护信息安全,是急需解决的关键社会问题。利用人体固有的生理特征或行为特征进行个人身份鉴定的生物特征识别技术,因其安
随着电子信息化进程的加快和互联网的快速发展,图像资源正海量的增长。越来越多的文档以图像的形式进行存储。文档图像中除了纯文本文档图像和纯表格文档图像外还有很多在文
图像是人类获取外界信息的重要来源,图像处理技术与人类生产生活息息相关。但由于拍摄环境,拍摄设备以及传输条件的不同,一幅图像的质量会受到噪声和光照的影响,使图像质量降低,进
随着无线传输技术的发展以及移动电子产品的普及,家庭网络作为数字化的一个重要组成部分,其相关的技术和标准逐渐成为国内外开发人员关注与研究的热点。消费者希望在家中的任何
图像的三维重建技术作为计算机视觉的一个重要分支,已被广泛的应用于医学图像处理、航空航天、军事勘察以及虚拟实现等各个领域。虽然已有的三维建模工具在不断完善,但是想要构
线上社交网络方兴未艾,数据共享、隐私保护等问题日渐引起公众注意。访问控制是实现信息安全的重要技术之一,在线上社交网络环境中它主要通过防止合法用户对受保护的网络资源进
无线传感器网络(WSN)是一门综合了计算机技术、现代通信技术、微电子技术、嵌入式系统、分布式信息处理等技术理论的新兴科学。WSN数据融合可以给用户带来更加真实可靠的数据