基于文本挖掘的胶质瘤蛋白质相互作用抽取方法的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:kensenwey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
胶质瘤的发病率占颅内肿瘤发病率的40-50%。目前,通过分子遗传学方法来探讨胶质瘤的致病机制并对其各亚型进行临床靶向治疗成为当前的研究热点。在当今人工智能和自然语言处理等信息技术高度发展的时代,在生物医学领域公开发表的研究文献也呈爆炸式的增长。揭示生物分子间关系的需求促进生物医学与计算机技术的深度融合,从生物命名实体识别、相互作用关系抽取,到生物事件抽取,基于文本挖掘和信息抽取技术在分子生物领域的研究的不断往前快速发展。本文以非结构化的生物医学文献为数据源,研究蛋白质命名实体识别(Named Entity Recognition,NER)和蛋白质相互作用关系抽取(Protein-Protein Interaction Extraction,PPIE)的关键技术,通过提取有效的结构化信息揭示疾病的致病机制。论文的主要工作如下:(1)利用条件随机场(Conditional Random Fields,CRF)模型进行蛋白质NER。首先进行分词、词性标注和组块分析等,经过特征抽取引入词特征、词性特征、组块特征、词缀特征、词形特征、关键词特征、停用词特征和拼写特征等丰富的文本特征集,然后利用序列前向选择启发式算法进行特征选择,构建CRF特征模型进行蛋白质NER。在人工标注的JNLPBA 2004 Genia4ER标准语料上取得综合F值71.46%。(2)以CRF模型识别的蛋白质命名实体为基础,利用word2vec、依存句法分析和支持向量机(Support Vector Machine,SVM)模型进行PPIE。通过依存句法分析器构建语义信息句子结构特征集,利用word2vec构建关系向量,结合SVM分类器进行蛋白质相互作用抽取。实验证明这些特征进一步改进了SVM分类器,显著提高系统性能。(3)通过E-utilities接口获取Pubmed数据库中的有关胶质瘤蛋白质的文本数据,以胶质瘤蛋白质的NER和PPIE为例,阐述了基于CRF模型的蛋白质NER和基于依存句法分析和SVM模型的PPIE在生物医学中的实际应用。
其他文献
我国作为农业大国,农业经济在整个经济体系中的重要性不言而喻的。近年来,电子商务的兴起和发展,对农业经济产生了巨大的促进和推动作用。但是在实际应用当中,电子商务没有充
对某再生水厂两级生物滤池脱氮工艺的甲醇投加量进行优化,在2年的实际监测数据基础上,采用线性分析拟合得到甲醇投加量与进/出水总氮质量浓度、水处理量、日均温度等因素的相
目前燃气轮机直驱MW级高功率密度永磁发电机受到的关注日益增加,其在舰船综合电力系统等小型分布式能源领域拥有巨大的发展前景。以一台MW级,额定转速5 000 r/min的高功率密
诱惑侦查教唆是一种特殊的教唆形态。它在教唆行为主体、教唆者的主观心理以及教唆者对被教唆者实施犯罪行为所可能产生结果的认知方面均与普通教唆、陷害教唆不同。对诱惑侦
<正> 1 人参流浸膏治疗溃疡病:每次10—20滴(10ml),每日2—3次,20日一疗程。适应证:胃酸缺乏型。观察102例,其中84例服一疗程胃痛消失,食欲增加,胃液分泌增多,酸度增高,排便
该文提出了一类新颖结构的平面电动机,这类电动机采用开关磁阻电动机的工作原理,结构简单、适用性强,可产生直接驱动的平面运动;在对平面电动机特性分析的基础上,进行了速度
领导干部经济责任审计无论是从世界范围来看还是从我国来看,都是比较新的课题。本文对目前党中央、国务院关于地方党政领导干部经济职责的文件规定进行了归纳综述,据此总结和
用自然语言处理(Natural Language Processing,NLP)技术分析法律文本,能够为法律工作者提供有效的法律依据,从而辅助法律决策和立法。因此,如何利用NLP技术有效地处理法律文
我国粮食特别是玉米生产量、进口量、库存量近年来呈现"三量齐增"的局面,既不利于我国的粮食生产,也不利于我国粮食安全。要解决问题,当务之急是找到造成问题的主要原因,从而对
以5年生‘北红’酿酒葡萄为试材,在葡萄萌芽前喷施不同浓度的S-诱抗素、水杨酸和萘乙酸,研究其对葡萄物候期、抗寒能力及生长状况的影响.结果表明:S-诱抗素、水杨酸和萘乙酸