基于图书的概念-描述词知识网络的构建及应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:very_god
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的普及和互联网技术的飞速发展,人类积累的数据量正在以指数的速度迅速增长。在数字图书馆领域,CADAL已经积累大量的数字图书,并提供了相应的图书阅读服务。显然,每一本图书都包含有大量的知识片段,如果能将这些资源进行分解、关联和再组织,形成按照一定目标、主题组织的内容,将会产生更大的价值。鉴于此,本论文在基于CADAL数字图书馆中的海量图书资源的基础上,从图书中构建概念-描述词知识网络,完成对图书知识的抽取和分解;然后在知识网络的基础上生成概念百科,完成对知识的关联和组织。论文的主要工作如下:(1)基于数字图书构建了概念-描述词知识网络。首先,本文给出了知识网络的原型。随后,提出了一种基于词嵌入(word embedding)匹配的算法用来解决目录的短语抽取问题,并训练分类器将目录短语分类成概念和描述词,从而构建得到概念-描述词知识网络。(2)本文提出基于Learning to Rank算法的百科词条目录生成算法,对从概念-描述词知识网络得到的候选描述词进行排序,使得词条目录反映知识阐述的前后顺序。(3)基于短语抽取、短语分类、描述词排序等算法实现了基于概念-描述词知识网络的概念百科生成系统。
其他文献
三峡库区河段地质情况复杂,桥梁众多,常常发生船桥相撞事故,对航运安全形成威胁。为此论文提出对三峡库区航运安全进行虚拟现实仿真系统及相关技术的研究,以三峡库区重点航段
共指消解是自然语言处理中的核心任务,它对于篇章分析、自动文摘、信息抽取、信息检索、信息过滤和机器翻译等都具有重要的意义。本文采用基于实例的动态泛化机制,在中英文上
随着信息技术和网络技术的发展,互联网上的信息和资源出现了爆炸性的增长。为了提高用户的有效信息获取能力,个性化推荐系统将会发挥越来越重要的作用。传统的协同过滤推荐技
近年来,计算机和互联网技术的迅速发展越来越显著地改变着人们的生活,多媒体就是借助这两项技术而诞生的应用领域。因此,保护多媒体信息的安全成为人们日益关注的问题。加密
随着无纸化办公成为当前的发展趋势,电子文档得到了广泛应用。各级政府及军事科研机构等部门大量涉密信息都以电子文档的形式存在。电子文档的安全问题便成为一个亟待解决的
虹膜识别是新兴的生物识别技术之一,受到了信息安全领域研究者的广泛关注。与其他生物特征识别技术相比,虹膜识别具唯一性、稳定性、防伪性、非侵入性等特点,使得虹膜识别技
随着网络在全球的普及,Internet已经深入到人类社会的方方面面,随之而来的,与Internet相关的安全事件愈来愈多,对人类生产与生活的影响也日益严重。尤其是蠕虫、僵尸网络以及DDOS
近年来,随着交互式问答应用的兴起,越来越多的人关注人机交互式的信息获取形式,大部分的自动问答系统都是基于FAQ的形式,而没有对问题本身进行理解,本文面向对用户问题的理解,针对
Petri网的可达性是Petri网的重要性质,其判定问题在Petri网理论中是一个重要课题。本文对Petri网的可达标识集做了一些分析,主要内容包括以下几个方面:1)提出了Petri网的表征
网络流量分类是指按照一定的规则识别应用层的网络协议。由于传统的端口和特征匹配的方法的效率和准确率都不够理想,很多学者将机器学习应用到网络流量分类领域,基于统计的网