自然语言处理在药物专利检索系统中的应用

被引量 : 0次 | 上传用户:zwj123zwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的日益普遍,人工智能的迅猛发展,计算机在化学领域的应用也愈来愈受到普遍的关注。特别是在有机化学人工智能方面,出现了日益繁多的有关物质分子结构信息处理的专家系统。物质分子结构的计算机处理,需要一种化学家和计算机都能接受的表达形式来表示分子结构,且要求一种分子只能有唯一的一种结构代码表示。在药物专利中,族性结构是通过结构图形与可变部分的文本描述相结合来表达的,计算机本身无法识别自然语言文字。因此,将专利摘要中的文本部分自动的转化为分子结构代码,对于计算机结构信息检索和匹配具有重要的意义。 本论文采用自然语言处理技术(Natural Language Processing),将药物专利摘要中对族性结构的可变部分进行描述的文本部分,半自动的翻译成规范的、唯一的、能够被计算机识别的代码。并结合输入到计算机中的专利结构图形,生成一个描述族性结构的紧缩拓扑关联表(GSCCT表),以便进行药物专利的结构匹配检索。机器翻译系统基于面向对象技术(OOT),通过句法、语法分析,建立语言模型。并结合机器翻译的需要,提出了新的汉语自动分词算法(MM),使词典库结构简化,极大的提高了机器翻译的准确性和速度。同时,词典库是开放式的,可以随时向库中添加新的词条,充分体现了该系统的学习能力和智能化。 本系统应用于“药物专利信息检索系统”,为进一步生成药物专利化合物结构的计算机表达、存储以及匹配所用。它大大减少人工输入表达式的工作量,并且尽可能地减少差错。 通过测试近二百篇药物专利摘要,系统性能良好,达到了预期的效果。
其他文献
中国古代数学有其自身发展的一面,但它又是在中国传统思想这块园地里生长和发展起来的,其兴衰成败的每一过程,都深深地打上了中国传统思想的烙印,表现出中国数学的独特风格。本文
随着我国国民经济的发展,电力能源逐步成为我国能源构成的最重要的组成部分。在发电企业走向市场的大背景下,特别是在目前全国普遍缺电的情况下,保证已投产机组的健康可靠运行,是
为探讨湿疹的证候规律及诊治特点,作者运用流行病学的调查方法及聚类分析的统计学方法,对1872例湿疹患者的证候进行调查分析。结果显示: 1.湿疹的证型主要以湿热证、血虚风燥
分析了宣城地区砂卵石的分布及特点,介绍了砂卵石传统的钻进方法及其改进。宣城河流中下游地带的砂卵石土层厚度不大,传统方法费时费力,采用裸眼干钻方法可以经济、快速地完
目的探讨组织粘合剂2-乙基氰丙烯酸酯(爱必肤)在骨折内固定术中的使用方法、临床效果和不良反应。方法用爱必肤将细小的骨碎片按解剖关系粘着在骨干创面上,使非常复杂的粉碎
本文主要从四个方面简要综述了非小细胞肺癌(Non-small cell lung cancer,NSCLC)的中医药治疗概况。中医药治疗非小细胞肺癌主要有四大方面的功效:在放化疗的基础上配合中医
本文通过系统总结与分析肥胖与痰瘀互结病机的相关研究,提出痰和瘀是肥胖发生发展过程中的重要病机,单纯性肥胖、均一性肥胖病机以痰湿为主,腹型肥胖病机痰多兼瘀,肥胖并发症
本文在广泛的文献调查和作者所在研究团体已有工作的基础上,研制了一种新型的铝电解用惰性可润湿性TiB2/C复合阴极材料,并对其性能与优化进行了研究。主要研究内容与成果如下:
风药是具有辛散升浮之性的药物,其辛散透达之性,不仅驱散外在风邪,又可透散内邪,配伍用于虚实诸证,临床应用较为广泛,涉及内外各科。文章主要对疏散外风之风药的作用机理从升
虚拟仪器技术引发了测控界的一场革命。虚拟仪器以其性价比、开放性等优势,在测控领域得到广泛而成功的应用。正如计算机技术的发展改变了测试的方式,网络技术正在革新测试技术