论文部分内容阅读
植物化学成分数据库中的数据信息对生物制药、食品安全等领域的研究人员有着非常重要的作用。在植物化学成分研究的文献中,作者往往会表述他的研究成果,即研究对象的植物物种信息、研究方法、该植物中的化合物组成等植物化学成分信息,收集相当量的植物化学成分研究文献,并且从中标引出植物化学成分信息数据,汇集这些信息数据就能为植物化学成分数据库的建设提供基础数据内容。想要从海量并且分散的植物化学成分研究文献中,获得植物化学成分数据,并且归集整理这些数据就需要设计和开发一个相应的数据加工系统。论文首先分析了植物化学成分数据的内容组成,研究数据的构成方式和形成方法。根据初始资源以及最终的数据产出目标,讨论了设计数据加工系统所要面临的技术难点,即要设计和开发一套数据加工处理系统,来实现从文献数据资源到化学成分数据的处理过程,并且要设计数据标引功能从研究文献中获取植物化学成分数据,另外还需要设计各个关键数据项的质量保证方法,保证数据加工系统数据产出的质量和可靠性。然后,论文从数据加工系统的工作流程和数据流程出发,整体布局系统的结构,完成了对系统的设计布局,并逐步完成整个系统的详细研究和设计。包括后台数据库中数据库实体关系图的形成、数据结构的分析、数据表的设计,应用前端的文献信息采集、成分数据标引、成分数据处理等功能模块的设计,另外还对数据库连接、全文文件管理、用户管理等系统设计细节问题进行了研究和设计。另外,论文还分析了系统中数据项的业务特点和专业规范,设计程序算法校检植物物种名称数据、化合物名称数据、化合物CAS登记号三个关键数据项,利用规则约束来控制进入系统的数据质量,和常规的数据质量控制方法一起形成了了一套系统特有的数据质量保证体系,来尝试解决系统开发中的数据质量保证问题。最后,根据论文的设计对系统进行开发,经过测试和一段时间的正式运行,系统共处理了约8万篇研究文献,产出的植物化学成分数据约60万条。采用专家检查的方式对比数据加工系统的产出数据结果和手工标引出来的数据结果,来验证数据质量保证体系的效果,并以水稻(Oryza sativa)的化合物成分数据,和含有化合物熊果酸(3beta-Hydroxyurs-12-en-28-oic acid)的植物物种数据为例,讨论了系统运行的数据结果产出,以验证整个数据加工系统的实现效果。论文通过对植物化学成分数据加工系统的研究和设计,完成了从大量研究文献到植物化学成分数据集的数据加工处理过程,在植物化学成分数据的内容组成和数据集的完整性以及数据量上,都有一定的突破。论文设计的针对系统中关键数据项的数据校验方法,有效地减少了数据的错误率,保证了数据产出的可靠性。