语义搜索系统中的术语发现研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:dgsbs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义搜索(SemanticSearch)是一种将语义Web技术与搜索系统相结合以提高搜索效果的技术。学术语义搜索系统是以特定领域的实体作为搜索对象的语义搜索系统,使用具有明确含义的术语描述特定领域。术语发现是学术语义搜索系统的关键技术之一,主要利用术语和论文之间的关系作为度量依据。但是本文中的学术语义搜索系统不提供论文正文,仅提供由论文标题和摘要构成的短文本语料库,限制了术语特征的度量。因此,本文提出一种新的术语发现方法,解决短文本语料库中的术语发现问题。   在学术语义搜索系统中,与术语相关的实体包括研究人员、论文和特定领域的概念体系。本文首先利用术语和相关实体之间的关系,提出了术语的亲和性、时间特性和领域特性三种新特征。然后利用贝叶斯网(BayesianNetwork)描述特征之间的关系,构造简单的术语发现贝叶斯网(simpletermrecognitionbayesiannetwork,STRBN)模型。最后基于STRBN模型组合多个特征作为术语发现的依据。   本文设计并实现了学术语义搜索系统中的术语发现模块,提出了基于STRBN模型的术语发现方法。术语发现模块使用来自电信和计算机领域的7,750,000个论文标题和4,500,000篇论文摘要构成的短文本语料库进行实验,基于STRBN模型的术语发现方法在精度上超过基线方法10%。
其他文献
随着计算机硬件技术的不断发展以及虚拟化技术的日臻成熟,越来越多的公司和企业采用虚拟化技术作为资源管理方案,提高服务器的利用率和复用率。同时在一台物理机上能够部署更多
随着数据量的不断增长,关系数据分析系统面临着可扩展性和查询性能的挑战,许多查询任务都必须通过使用大规模的集群实现并行处理才能获得较好的查询响应时间。面对大数据处理的
随着服务计算和云计算的发展,具有相同功能属性、不同非功能属性的web服务出现了爆炸式增长,传统的web服务选择方法在应对海量服务数据时,无论是在性能还是效率保证方面,都面临着
随着信息技术的不断发展,人们对个性化服务的需求越来越高。而目前的搜索引擎在进行查询-文档匹配时,并没有针对不同的用户作相应的处理。对同一个查询词,不同用户得到的查询
随着嵌入式技术的不断发展,嵌入式数据库应用得越来越广泛。嵌入式环境有许多特点和限制,如移动性、网络不稳定性以及电源能力等,对嵌入式数据库可靠性和性能提出了更高的要求和
3D电影《阿凡达》的热播在全球范围内掀起了一股3D热潮,一时间立体电视、立体显示器、立体摄像机等产品相继迈入市场,为大众的生活增添了更多色彩。虽然目前3D内容的不足正极大
情境感知计算是普适计算的重要组成部分,通过时变的上下文信息自适应的为用户提供当前最合适的服务。在信息化社会,用户整个生活的大部分行为和活动状态都将可以通过传感器等方
随着信息技术的发展,存储在计算机系统结构中变得越来越重要。目前,在存储领域中,出现了一种新的存储介质:闪存。因其容量日益增大、读写速度快、抗干扰性强、功耗低等特点,基于闪
随着语义Web的发展,RDF数据量不断增长,浏览语义Web数据的需求变得越来越迫切。许多国外的研究机构开展了面向语义Web浏览的研究,并推出了一些有影响力的系统和工具。   然而
为了满足呈爆炸式增长的信息存储、处理、传输的需求,大规模数据中心应运而生。在大规模数据中心里,根据经典的80/20原理,将数据都存储在高性能设备上是不经济的,为了实现资源的