基于概念的生物信息检索研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:zhangchenlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和科技的日益进步,网络信息不断递增,生物信息这类专业性文本持续增大。如何从这些海量专业性文本信息获取所需的知识成为了近年来学者专家的研究热点。   由于生物信息包含很多专业性问题,涉及到生物词汇缩写,异物同名词,同物异名词等,传统的词频模型不能很好地解决这些问题。生物信息学的发展,使得很多资源被整合成专门的生物信息词典,这些词典包含了许多的语义信息。目前,许多学者尝试利用语义信息进行生物信息检索,将概念及本体等语义知识融入检索模型。   为了识别出专业的术语以提高生物信息检索的精度,本文采用了基于语义的方法,利用概念并结合自然语言处理的相关技术,对生物信息检索技术做了一些研究。所做的主要工作包括以下几个方面:   第一,由于生物文本的信息量过大,把文本中的概念提取出来,用于表示文本,可以压缩文本的规模。本文利用生物信息学的专有词典来进行概念抽取。由于在生物文本中次要词语经常被作者忽略或者添加进去,这样精确字典匹配会造成大量的不匹配现象,所以本文采用了近似字典匹配的方法来解决这个问题,其基本思想是通过概念中重要的词语而不是所有的词语来识别概念。   第二,概念抽取完之后,有的词语会被转换成两个或者多个概念,这样便造成了歧义,本文采用最大熵模型消歧,认为这些词语所转化的多个概念有均等的出现概率。为了验证该消歧方法的有效性,完成一个对比实验,该实验直接选取所抽取到得第一个概念来代表该词语。通过对比实验发现最大熵模型的平均准确率比没有消歧的方法提高了6.5%。   第三,为了进一步的提高检索精度,本文引入了自然语言处理处理中的查询扩展、文本聚类技术。本文对中心概念进行查询扩展,然后利用中心概念和查询扩展出的概念对文本聚类,之后进行相似度排序,得到最终结果。为了验证该方法的有效性,完成一个对比实验,该实验利用查询扩展之后,直接计算相似度然后排序。通过对比实验发现利用聚类算法方法的平均准确率比没有利用聚类算法的方法提高了8.24%。  
其他文献
基于视频的行人目标检测和跟踪是计算机视觉领域的一个重要的研究方向,该研究在智能监控等领域有着广泛的应用前景。智能化监控系统不仅具有重要的实际应用价值,并且对人工智
随着信息技术的飞速发展,各种危害事件层出不穷,网络安全形势日趋严峻。特别是在金融系统和电子商务等领域,密码技术的优势则表现的更为突出。实体建立会话时如何有效地认证
四旋翼无人机相对于传统的固定翼无人机,具有结构简单、垂直起降、定点悬停、低空低速飞行等优点,具有重要的军用和民用价值,近几年迅速成为研究热点。由于四旋翼无人机是一
互联网的发展使信息量呈规模性增长,怎样在大量的信息中找到我们真正想要的内容成了目前研究的重点。传统的搜索引擎的方式要求用户能够比较准确的描述想要搜索的东西,然而有
运动目标检测是计算机视觉研究中非常重要的一部分,它的目的是将用户感兴趣的运动目标准确、完整地从视频序列中提取出来。运动目标检测一直以来广受计算机视觉研究领域的关
IPv6作为下一代互联网的核心,对移动性有很好的支持。但是,视频、音频等对实时传输要求较高业务及移动通信的3G和4G技术要求在移动过程中实现无缝、平滑切换,这对移动IPv6的
随着计算机技术的发展和社会的进步,社会信息量急剧增加,信息时效不断缩短,人们接受信息的能力相对有限,如何组织网络资源给用户提供透明的检索服务成为亟待解决的问题。网格
立体视觉是计算机视觉领域的一个重要分支,其中三维场景理解一直是研究热点之一。本文主要面向铁路线路视频研究三维场景理解技术,恢复出场景中物体的空间相对位置,从而可以
随着电池技术的不断发展和人民日益对环境污染以及能源危机等问题担忧,使得电池行业迅速成长起来。电池产业的高速发展,带动了电池测试系统的发展,也对电池测试系统提出了更高的要求:在保证电池参数测量的精度的情况下,还必须适应工业中的大规模化测试和管理的要求。因此电池测试系统服务器必须具有强大的数据传输和处理能力。本文首先分析了Windows平台下选择模型、异步消息模型、异步事件模型、重叠端口模型以及IOC
国内外研究人员对于非线性系统的状态估计问题一直高度重视,这个问题已经成为了一个具有重要的理论意义和使用价值的热点课题。贝叶斯滤波理论中的代表:卡尔曼滤波器只能处理