OMIM文本中疾病表型相似度挖掘算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zybzsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文本挖掘的目的是借助文本挖掘技术帮助生物医学研究者从海量文献中更有效地找到所需信息、发现隐藏的生物医学知识。通过对孟德尔人类遗传在线(Online Mendelian Inheritance in Man,简称OMIM)进行生物医学文本挖掘,得到OMIM记录中描述的表型相似度,并通过计算其相似度以及分析是后续的研究包括相关疾病的预测的基础,有其十分重要科研意义。本文主要通过对OMIM中包含人类疾病表型数据使用文本挖掘的方法以发现功能上相关基因的表型之间反映出生物模块互动的相似性。分别利用基于向量空间的疾病表型相似度挖掘方法、基于情景模式的疾病表型相似度挖掘方法,通过这两种方法得到OMIM文本中疾病表型的相似度。主要通过对OMIM文本中出现的关键动词进行词干还原以提高结果的精确度。通过使用WordNet的同义词集(Synset)来细化相似度结果,利用基于WordNet的OMIM中实体描述词相似度计算的方法对得到的疾病表型相似度结果进行优化。通过将疾病表型相似度结果应用于疾病基因预测中,得出基于情景模式的方法的效果好于基于向量空间的方法。
其他文献
随着互联网的快速发展,当前每天都将产生海量的数据。为了存储这些数据,独立磁盘冗余阵列(RAID)利用多个磁盘提升系统容量和读写性能。在大规模RAID系统中,由于磁盘数较多,磁
由于其灵活性和可扩展性,XML成为越来越多互联网上数据的表示标准。在一类应用中,XML数据表现为源源不断到来的数据片断,在这类应用中的XML数据称为XML数据流。XML数据流的应
音频分割是指根据说话人特征、环境、信道条件,将音频流“自动”切分成若干同质区域的方法。由于其在音频检索、语音识别等应用中具有潜在价值,近年来受到了广泛关注。在各种音
很久以来中医一直依靠指面感觉来体会患者桡动脉搏动处的脉象信息,因此诊断时需借助医师的经验,这样使得其应用和发展都受到了很大的限制。所以,利用现代科技对脉诊进行客观
整个网络中的信息按深度可分成两个层次,表层和深层。表层主要包括“静态网页”,是指以文件形式静态存放在服务器上的数据信息。深层则主要包括“动态网页”,是指隐藏在表单
在很多实际应用中,数据的类别之间存在一种自然的序关系。例如,我们用1~5星去评价一部电影,3星评价高于2星评价,而4星评价低于5星评价。和标称数据不同,我们称这样一类数据为
在多核单机系统上,多个共享资源的线程或进程间的交错执行是不确定的,导致并行软件难以开发、调试,存在安全隐患。为保证线程或进程交错执行的确定性,课题组已提出确定性生产
车牌识别技术在智能交通系统中占有非常重要的地位,车牌识别系统主要包括车牌定位、字符分割和字符识别三大部分。其中,车牌定位和分割的结果对后续的识别起决定性作用,所以
对于领域性的信息检索系统来说,准确率的要求往往是其最为关心的,因为目前通用的信息检索系统对于具有高度领域性的信息来说并不能展现出良好的效果,甚至远远达不到可用的程
随着因特网的发展,网络信息量正突飞猛进地增长,人们越来越依赖搜索引擎来准确地获取所需的信息。搜索引擎在为网民提供便捷的搜索服务的同时,也影响着网站的发展前景,所以搜