论文部分内容阅读
随着计算机应用的日益普遍,人工智能的迅猛发展,计算机在化学领域的应用也愈来愈受到普遍的关注。特别是在有机化学人工智能方面,出现了日益繁多的有关物质分子结构信息处理的专家系统。物质分子结构的计算机处理,需要一种化学家和计算机都能接受的表达形式来表示分子结构,且要求一种分子只能有唯一的一种结构代码表示。在药物专利中,族性结构是通过结构图形与可变部分的文本描述相结合来表达的,计算机本身无法识别自然语言文字。因此,将专利摘要中的文本部分自动的转化为分子结构代码,对于计算机结构信息检索和匹配具有重要的意义。 本论文采用自然语言处理技术(Natural Language Processing),将药物专利摘要中对族性结构的可变部分进行描述的文本部分,半自动的翻译成规范的、唯一的、能够被计算机识别的代码。并结合输入到计算机中的专利结构图形,生成一个描述族性结构的紧缩拓扑关联表(GSCCT表),以便进行药物专利的结构匹配检索。机器翻译系统基于面向对象技术(OOT),通过句法、语法分析,建立语言模型。并结合机器翻译的需要,提出了新的汉语自动分词算法(MM),使词典库结构简化,极大的提高了机器翻译的准确性和速度。同时,词典库是开放式的,可以随时向库中添加新的词条,充分体现了该系统的学习能力和智能化。 本系统应用于“药物专利信息检索系统”,为进一步生成药物专利化合物结构的计算机表达、存储以及匹配所用。它大大减少人工输入表达式的工作量,并且尽可能地减少差错。 通过测试近二百篇药物专利摘要,系统性能良好,达到了预期的效果。