基于大众注释的语义提取研究及应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:cyc198810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义Web不仅要求Web资源是用户可读的,也是机器可理解、能自动处理的。为获得机器可理解的语义,许多研究试图根据定义好的Ontology,为Web资源创建语义标注,这类标注往往是以手工或半自动的方式添加的,并存在以下缺点:很难为庞大的Web资源建立一个统一的Ontology库:通用的Ontology库不可能赶上Web资源变化的速度;要求注释者对Ontology工程有较高的技能,而一般的Web用户是没有这种技能的。 目前网络中流行的大众注释是由普通网络用户手工添加,尽管没有使用事先定义好的Ontology,且与语义标注相比有些粗糙、模糊,但它们能从用户的角度更好地反映网络资源的用途和意义。本文从大众注释的研究出发,提出有效的语义注释方法和相应的语义搜索方案。首先,提出一个自底向上的语义标注方法,采用概率统计方法对大众注释的标签进行归类,划分出领域空间,计算实体(用户、标签和资源)的语义向量,采用Del.icio.us提供的大众注释服务实例阐述了从大众注释中派生出浮出语义的过程;其次,构建一个语义搜索框架,根据提出的语义注释方法,计算每个实体的语义向量,将其应用于共享Web资源的发现和查找,实现一个智能的语义搜索系统,用户通过输入标签或关键字进行查询并返回按用户兴趣度排序的相关结果。 为验证所提出的语义注释方法和语义搜索方案,采用Python和Java语言开发了一个原型系统,实现了数据采集及预处理(网络爬虫)、语义派生处理和语义搜索等功能。原型系统在大量实际数据上的验证表明本文所提出方案可完成数据的采集、处理、派生浮出语义及语义搜索。
其他文献
随着我国金融体制改革的完善和深化,经济金融全球化趋势日益明显,商业银行的传统经营方式已经不能适应银行经营发展的需要,中间业务的发展越来越受到商业银行的重视。但是,一
随着互联网的快速发展,越来越多的视频媒体在网上被存储并传输。数字媒体的拷贝在视觉质量上与原始媒体基本相同,这给盗版提供了便利。数字水印是一种有效的数字版权保护技术
无线传感网络(Wireless Sensor Network,WSN)是由大量静止或移动的传感器以自组织和多跳的方式构成的无线网络,传感器协作感知、采集、处理和传输网络所覆盖区域内被感知对象
Cache技术是一种以高速缓存为主的应用型技术,主要是为了解决当前计算机系统中各部分接口数据传输速度不一致问题而使用的。速度矛盾不仅存在于计算机硬件系统中,也广泛存在于
随着云计算技术的快速发展,越来越多的敏感数据将被迁移到平台上。虽然云计算可以提高资源的利用率,但云计算的开放性,又给恶意用户实施恶意攻击带来潜在可能。因此,如何保障服务
最近几年,随着虚拟现实、3D仿真、3D电影和3D游戏等产业的蓬勃发展,人们开始研究如何高效制作绚丽逼真的3D图形效果,越来越多的3D绘制引擎如雨后春笋般浮现。目前,国外3D绘制
SOA(Service-Oriented Architecture)是一种以服务为导向的组件模型,它是为了解决在Internet环境下应用业务集成问题的一种软件系统架构。Web服务(Web Services)使用了标准的、跨
本论文在对网络测控理论研究的基础上,利用虚拟仪器技术、网络技术及通信技术制定了网络测控系统的技术方案。论文主要完成了基于虚拟仪器的网络测控系统的构架和技术方案设计
Ad hoc网络,也称为无线自组织网络(MANET),是由一组带有无线收发装置的移动节点所组成的一个临时性多跳自治系统。作为下一代网络的重要代表,它的发展不仅有利于国防军事,而且在
当今时代,人们对多媒体数据的需求正在不断增长,同时多媒体数据本身的内容也不断增大,如何压缩视频数据量成为多媒体技术发展的关键问题。因此,视频压缩技术成为一个重要的课