论文部分内容阅读
背景:近年来随着国家经济的大力发展,所带来生活方式上的转变越来越大,人们不再一味地追求物质上的满足,转而更看重精神和身体上的健康。此时,基因检测技术,这个能够从人类最根本的遗传信息中,获得有用的信息,并加工处理,产生可阅读的,可理解数据的技术孕育而生。通过测序获得的大量遗传信息,运用实验和对比获得与特定性状相关的等位基因位点,这些等位基因位点因为各种原因,导致等位基因多态性的产生,进而影响相关性状的表达结果。基于这些表达结果不同,建立与之相关的基因数据库,将待检测者遗传信息与数据库比较获得基因控制性状的影响程度结果,进而在诊断疾病和能力基因的检测等方面,提供较为客观的建议。在这其中SNP起到了非同一般的作用。通过基因检测的结果,与SNP数据库比较,得出其相关的性状对于检测者所造成的影响结果,给出一份检测报告,能够直观的反映待检测者对于其感兴趣性状及其相关基因所带来的影响结果,并给与一定专业知识的解读和建议,这是该技术产业如此受到大力追捧的原因。但是基因检测报告在生产过程中还有很多问题,包括:(1)报告流程的不成熟,效率低速度慢。(2)给与的建议解释大相径庭,很难有信服力(3)报告排版模式单一,容易出现乱码状况。因此需要一个成熟的系统过程来满足这个技术产业的需求。基因检测报告系统开发解决的关键点是第一,报告的排版问题,采用LaTeX进行报告的编译,一次性解决好排版模式以及易出现的乱码现象,简单有效。第二,利用python语言结合爬虫技术从专业论文中获取报告所需的科学前沿的观点和相关知识数据支持,很方便的对报告进行更新修改。第三,将这些得到数据放入数据库,能够方便进行检测项目的查找,提高基因检测报告的产出效率和精确性。第四,通过python语言,将各模块,组合拼接,充分发挥其’胶水’的作用,使得基因检测报告系统更为整体,方便。一、报告模版的编译运用LaTeX语言进行大量报告模板的编写,需要进行的编译包括:(1)基本格式模块的编译处理,(2)基本信息模版编译,(3)基因检测结果所对应的检测结果模版。因为检测项目的数量较多,匹配结果产生的结果模板也需要相应数目进行满足。总共编译100个模板满足使用。模版的编译可以使用ATOM或者TEXlive软件。能够直接使用模版生成所需报告pdf格式,快速准确生成报告。二、SNP相关数据信息的获取进行检测结果模版的编译需要有大量相关生物学的知识技术支持,这些数据主要从MEDLINE(生物医学数据库)或者ncbi中的论文中获取得到。获取包括所需的:(1)SNP位点,其相关的性状是我们所需要的.(2)其位点的多态性会对相关性状乃至这个个体造成怎样的影响,所带来的生物医学上的意义。(3)结合获得信息给与较为专业的建议。需要将获取的数据在检测结果模版中体现。课题总共收集120中SNP位点和其相关性状。为了获取这些数据,采用python编写脚本结合网络爬虫技术,从PubMed数据库获得所需要的信息,按照数据库格式要求处理后,放在数据库进行储存使用,以达到在调用模版时起到‘过滤’的作用。三、数据库的构建数据库的建立使用的是Mysql进行建库,使用原因是(1)简单方便.(2)可以通过使用python语言进行交互操作。(3)能够快速方便查询数据库中的检测结果数目和个体,即可以快速查询是否有待检测者所需要的检测项目。(4)是通过数据库能够在调用检测结果模版时,简化调用过程,能够在调用所需模版前对所有检测结果模版进行‘过滤’,只将和检测项目相关的检测结果模版放在一起供输入信息匹配使用调用。这既缩短了调用模版的时间并且提高了效率,又能提升调用模版的准确性。结论:构建的基因检测报告系统,运用LaTeX语言,编译报告模版,能较好的解决word编译过程中出现的乱码问题,增加了模板样式,更加整洁美观,使用python语言编写网络爬虫技术脚本进行数据的获取和初级筛选,将所需的SNP和其相关性状及其影响信息获取储存,并将得到的信息按照一定格式储存在Mysql数据库中,方便查询和调用模版。使用简介:(1)确定输入文件的格式。(2)将输入文件分为基本信息部分和检测结果两部分,分别进入系统。(3)调用基本信息模版和检测结果模版,共同组成最终模版,生成pdf格式文件,产生报告。本报告系统可作为基因检测技术运用的良好补充。