生物医学文本中蛋白质相互作用关系抽取关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wdynamic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学领域研究的飞速发展,生物医学文献的数目急剧增长,为了从生物医学文献中挖掘知识,蛋白质相互作用关系抽取成为了近年来的研究热点。本文的研究内容为蛋白质相互作用关系抽取的关键技术,具体包括生物医学命名实体识别和关系抽取,其中实体识别是关系抽取的基础。本文针对上述两个问题,主要进行了3个方面的研究,并在此基础上实现了一个面向蛋白质相互作用关系抽取的生物医学文献检索系统。首先,本文分别采用了产生式模型与判别式模型对生物医学命名实体识别问题进行研究。为了获取句子中的长距离依赖以及利用自然语言的幂律分布特征,本文提出了一个基于Sequence Memoizer的产生式模型,其中Sequence Memoizer是一个非参数贝叶斯模型。本文在JNLPBA2004数据集上对该模型进行了测试,实验结果表明本文提出的基于Sequence Memoizer的产生式模型优于隐马尔科夫模型,且与最大熵模型取得的结果相当。为了利用丰富的特征集和大规模的训练数据,本文利用最大熵模型进行了实体识别任务,最大熵模型的优点是易于利用各种有效的特征,且训练时间短,适用于大规模的数据集。在CALBC2011国际生物医学命名实体识别评测任务中验证了本文提出的方法在面对大规模低质量训练数据的有效性。其次,本文提出了基于自动规则学习的蛋白质相互作用关系抽取方法,规则的产生主要利用依存句法分析。该方法利用依存句法分析的结果自动学习规则并建立规则库,预测的过程即规则匹配的过程。在AIMed数据集上的实验结果验证了本文所提出方法的有效性。另外,本文为了利用大规模未标注数据进行蛋白质相互作用关系抽取,提出了基于广义期望准则的半监督方法。该方法利用广义期望准则训练最大熵模型。通过在AIMed语料上的实验,验证了基于广义期望准则的方法可以有效的利用少量的标注样本与大量的未标注样本,非常适用于严重缺乏标注语料的生物医学领域。最后,本文搭建了一个基于MEDLINE数据库的生物医学文献检索系统,该系统除了具备常规的检索功能之外,还集成了生物医学命名实体识别与蛋白质相互作用关系抽取的功能,具有一定的实用价值。
其他文献
为了清楚的了解人类的遗传机制,以便用于疾病的治疗和预防,对于生物序列的研究成为了研究分析遗传的基础。而最基本的序列研究就是序列比对与序列组装。随着新一代测序技术(N
在短道速滑运动中,体能发挥着极其重要的作用,为了使短道速滑技战术仿真系统能更加真实的模拟虚拟运动员比赛过程中的运动状态,提高仿真系统的实用性,设计一个科学合理的体能模型
嵌入在图像中的文本与图像内容存在着密切的关联关系,这些关系对于理解图像发挥着重要的作用。本文以新闻图像与字幕文本为研究对象,探索图像内容与字幕文本之间的内在联系,提出
近年来,Internet上群组性应用如视频会议、文件共享等越来越多,这些应用大多采用一个节点对多个节点或多个节点对多个节点的通信方式。传统的IP单播技术在这些群组性应用中效率
计算机视觉是当前人工智能领域的研究热点之一,而人类视觉的一个关键作用是对于运动物体的跟踪,现实生活中有大量的信息包含在运动中,所以对于运动物体的跟踪已经成为计算机视觉
随着Internet的迅速普及,互联网及其相关技术得到迅猛发展,互联网用户的规模及网络服务多元化是现今CDN面临的主要挑战。为了节约成本与提供更好的服务质量,与P2P融合的CDN技术
当今云计算SOA的架构模式成为当前企业的首选,这使得Web服务在数量上快速增长,随着用户群数量的不断增加,Web服务需求量也随之膨胀,在庞大的Web服务资源中,如何快速准确地为
高通量生物检测技术的广泛应用带来了分子生物学数据的指数级增长,使得生物数据的融合与生物知识的挖掘成为目前生物信息学面临的重大挑战。以高通量微阵列为例,其能够并行检
针对目前灰度半调图像无损压缩方法中存在着算法复杂度较高,压缩率不理想的问题,本文分析了典型半调图像的生成原理及特性,在此基础上,设计了针对有序抖动和误差分散半调图像的无
实体的歧义是指同一个实体名称可以对应到多个概念上,为了自动分析文本或构建大规模知识库,精确细致的实体消歧工作不可缺少。近年来随着社交网络的高速发展,互联网上的信息呈现