论文部分内容阅读
医药研发是一件充满风险、耗资巨大的事情。国外的化学药物研发周期约10年,费用在3亿-5亿美元左右,多的高达10亿美元,研发经费占到销售额的15%~20%。从上面可以看出,药品的研发存在很大的困难,但另一方面,经过长期的积累与创新,人们已经拥有了成千上万种药品来医治各种疾病。从古典医书《神农本草经》、明代的《本草纲目》等等到现在的《中国药典》、《日本药典》、《美国药典》、《欧洲药典》,都包含了大量的药品资源。从中我们可以发现对于同种药可以治疗多种疾病(异病同治),针对同一种病也可以有不同种药品(同病异治)。这一现象在中医学中特别名显。这就是说药品的成份与疾病,成份与成份之间存在某种复杂的关联。如果我们能发现其中的关联信息、药效的强弱,将现有药品的主成成份适当地重新组合,就有可能增强药品疗效,开发新型药品。数据挖掘技术一般从存放在数据库,数据仓库或其他信息库中的大量数据中挖掘有趣知识,运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构,发现有价值的关系或知识。主成分分析试图在力保数据信息丢失最少的原则下,对多变量的平面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理,提高对数据的处理效率。我们可以看出,得到的主成分为原变量中某几个变量的线性组合。但是它并没有明确标示出哪些变量最具有代表性,最是我们应当关心的、感兴趣的,以及不同变量之间的比较问题。对于在同一个主成份结果中,变量所对应的特征向量的系数就可以作为衡量的依据,系数越大,越具有代表性。但对于不同主成份的各变量之间如何比较呢。本文就此提出了贡献率向量的概念。贡献率向量等于主成份所对应的特征向量与主成份对应的贡献率的乘积。数学公式为:Ui*λi i∑=p1λi其中λ为数据矩阵的特征值,Ui为λ所对应的特征向量。本文依托“长春市妇产科医院HIS(Hospital Information System)”中“药品管理系统”,从中获取课题所需要的数据。本文以常见疾病“感冒”作为实例,对系统进行了测试。从产院药品管理系统中获取数据,共查得22条相关数据,设定权值,达到了预期的效果。由于长春市妇产医院为一所专科性医院,其药品数量有限,如能获取中华药典数据库进行测试,相信效果会更好,更加全面。