基于判别式模型的蛋白质互作用文本挖掘技术研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:huodong004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质互作用描述了蛋白质间的相互作用关系,对于生物医学具有重要的理论和应用价值。随着生物医学的发展,人工从文献中获取蛋白质互作用信息已不能适应生物文献数量迅速增长的需要。文本挖掘技术能自动地从文本中发现知识,因而在蛋白质互作用信息提取任务中得到了广泛的应用。传统的方法在蛋白质命名实体识别和互作用抽取性能上难以满足实际需要,此外对标注语料的依赖制约了算法的性能。为了解决这些问题,以机器学习中的判别式模型为理论基础,论文研究工作包括蛋白质命名实体识别和蛋白质互作用信息抽取两个任务。本文主要原创性工作包括以下四个方面:1.提出了一种基于条件随机域模型,并结合特征选择和后处理的蛋白质命名实体识别方法。该方法在提取蛋白质命名实体特征的基础上,对传统的词特征方法进行扩展。增加的模块包括:基于信息增益的特征选择,及后处理阶段采用的基于词性分析的边界规则和单词过滤方法。实验表明,与传统方法相比,该方法能够更好地适应于具有复杂定义模式的命名实体识别任务。2.提出了一种基于模型融合的蛋白质互作用信息抽取模型。基于级连法的思想,将模式匹配的结果作为特征融合到词特征方法中,使得模型兼具模式学习和词特征方法的优点。在模式学习中,对单模式评价的方法进行改进,并提出基于性能增益的模式评价的方法,能够有效地去除性能低下的模式和冗余模式。实验表明,与单个方法相比,该方法能够显著提高分类性能,且具有更为均衡的准确率和召回率。3.提出了一种融合浅层句法分析的蛋白质互作用信息抽取方法。生物文本中复杂的语法结构导致信息抽取性能低下。本方法在信息抽取前,对输入句子集合进行语块划分、同位语分析、并列结构分析、从句分析的处理,从而将待分类的蛋白质对的实例划分到不同的语法单位中。语法单位的划分能够限定蛋白质对的搜索范围,提高分类的准确性。实验表明,与传统基于机器学习的方法相比,该方法能显著提升F1值10%以上。4.将基于词特征的方法和自动模式学习方法进行联合训练,并提出一种基于k-最近邻算法(kNN)的实例自动标注方法。在已标注样本缺乏情况下,应用联合训练框架,词特征方法和模式学习方法能够互相学习,互为补充。基于kNN,通过将不同样本中的蛋白质对文本的序列比对分值定义为距离值,使未标注样本得以自动标注。实验表明,在初始标注样本数较少的情况下,上述两种方法均能有效利用未标注样本,显著提高信息抽取性能。
其他文献
目的探讨后腹腔镜下输尿管上段切开取石术治疗上段输尿管结石的临床效果。方法选取2014年6月~2015年3月期间收治的74例上段输尿管结石患者,随机数字法将其分为对照组和观察组
某核电厂海水管道内壁涂层在腐蚀检查中发现涂层发生大面积鼓泡,使得海水管道存在较大腐蚀风险,存在影响机组运行的隐患。本文对海水管道内壁涂层鼓泡原因做了分析,并提出了
频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。由于它是关联性挖掘过程中最耗时的部分,挖掘算法的好坏直接影响数据挖掘的效率和应用范围。因此,频
明朝都市体育“四绝”明朝中叶,都城南京十分繁华,街市交错,列巷纷纭。在这个都市里,各种技艺(包括体育)活动更是活跌,“都下百巧骈集,争相高尚,即技艺之微,亦往往造极工巧,有古今所无者
高校实验文档资料分类归档是高校实验工作的一项重要内容,这项工作的好坏直接影响了高校档案管理工作的开展,本文分析了高校实验文件档案资料的分类归档管理现状及原因,并提出了
目的探讨B-ALL中CD66c阳性与BCR/ABL融合基因阳性的关联性。方法使用流式细胞检测方式检测40例B-ALL中CD66c阳性及40例BCR/ABL融合基因阳性患者的免疫表现。其中急性B淋巴细
<正>笔者所在学校的学生结合投影仪的成像原理,自己用身边的器材制作了简单的投影仪,体现了"教学做合一"的思想。一、传统教学的弊端传统物理课堂教学,主要是教师传授物理知
本文分析了计算机在房屋档案管理中运用的必要性,提出了目前数字化房屋档案管理工作中存在的问题,并提出了包括加强电子档案的保管,做好数据备份工作等~系列的解决对策。最后展望
随着中国城市和农村经济的不断进步,新的农业发展方式需要农村土地进行大规模流转,以提升规模效益和农业现代化水平。但目前仍存在土地流转效益不高的问题。基于此,以安徽省
随着市场变化及其结构的调整,高品质的板带钢在钢铁工业中的地位日益重要。它在汽车、家电、造船、航空航天等相关领域有重要应用并且需求量上升迅猛。由于连铸钢坯、轧制设