两类生物计算问题及其在数据挖掘中的应用研究

来源 :山东师范大学 | 被引量 : 13次 | 上传用户:a490093469
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为生物计算的新的研究内容,膜计算从生物体的自身运行机制和合作原理,即细胞、组织等结构中获得灵感,设计出P系统。到现在为止,主要的P系统有三大类:cell-like(细胞)P系统,tissue-like(组织)P系统,Spiking Neural (神经)P系统。这些P系统都是从生命体机制,如细胞、组织中概括提取出来的。膜计算的主要研究方向包括:膜系统的计算能力与计算效率,新型膜计算模型,膜计算的应用以及实现。得益于膜计算具有的并行性特点,膜计算已应用到经济学、语言学、生物建模、密码学、计算机图形学等多个领域,解决了许多问题。DNA计算是以生物DNA为基础的计算,通过DNA分子的变性、复性退火等操作,在特定环境下,在试管中或表面上或芯片上进行反应,从而得出问题解集的过程。DNA计算具有三个显著优势(1)高并行性,运算速度快(2)DNA作为信息的载体,存储容量大。(3)DNA分子生物计算耗能低。研究DNA计算的热门所在,主要为:对于新的DNA模型的发现、分析与研究;能够解决非确定多项式问题的具体的DNA模型;构造基于DNA求解问题的装置并使之自动化等。数据挖掘,是从数据中获取知识和信息的过程。在大数据背景下,针对其出现的新特点,如何对数据进行有效分析,从庞大的信息中发掘可利用的知识,提升数据的有效性和可阅读性,有待数据挖掘研究学者提出合理、可用的方法。聚类分析是一种处理数据(信息)的有用方法或技术。作为数据挖掘极其重要的一部分,聚类有着多种方法,如系统法,动态聚类法,模糊聚类方法等。这些方法各有优缺点,分别在某些特定的情况下取得了理想的聚类效果。论文从基于膜计算的聚类算法和基于DNA计算的聚类算法两个方面进行了研究,主要工作如下:(1)Pǎun曾说:“设计实现新的P系统是膜计算领域的一条重要发展道路”。本文首先对三种主要的膜计算模型进行了扩展,分别提出了基于层结构的膜系统模型,带有动态促进/抑制因子的组织型膜计算模型和具有拓展规则及多输出的脉冲神经模型。在数学图形学、拓扑学中,应用较多的一个理论叫做离散Morse理论。这一理论能够剖析一些离散图形结构的拓扑类型。将膜系统与新型数据结构(如单纯形、复形等)结合,提出基于格(偏序结构)的交流膜系统,基于单纯形的交流膜系统,并使用形式语言证明其计算完备性。作为一种新型的计算方法,膜计算在聚类分析中的应用并不多。结合膜计算的强大并行能力,本文提出了基于动态促进/抑制因子的组织型膜系统的拓扑聚类算法,使用带有动态促进/抑制因子的组织型膜系统规则实现具体聚类步骤,通过一个包含十个数据点的示例说明了算法实施的可行性,与传统操作方法进行了时间复杂度的比较。将改进的脉冲神经膜计算模型与菱形网格相结合,提出基于拓展规则及多输出的脉冲神经膜系统的网格聚类,给出算法的规则,膜系统结构,通过包含多个数据点的示例说明了算法是管用的。提出基于格(偏序结构)的新型结构交流膜计算模型,设计了上确界和下确界规则,通过规则在膜系统中实现了密度聚类算法,减少了算法的时间复杂度,提供了聚类算法的新思想。本文将所提出的基于膜计算的聚类算法应用于具体问题中,给出了三个方面的应用,包括:膜计算、DNA计算在真实数据集中的应用、膜计算在文本聚类以及在空气质量评估中的应用。(2)使用著名Adleman模型、改进的粘贴模型以及K-臂DNA计算模型进行聚类分析。提出了基于Adlman-Lipton计算模型的拓扑聚类算法,基于改进的粘贴DNA计算模型的拓扑方法和基于k-臂即三维DNA模型的划分方法。分别将DNA计算与层次聚类,网格聚类等算法相结合。基于Adlman-Lipton计算模型的拓扑聚类算法,用单链DNA表示顶点和各个顶点之间的边,使用DNA测试分子序列顺序的方法与凝胶电泳方法,两种方法共同作用得到最小生成树,随后,按照一个具体数值(反应之前给定的)删除大于这个数值的边,结果中可连通的顶点的子图数目即聚类的簇的个数。基于改进的粘贴DNA计算模型的拓扑聚类算法中,首先,对于粘贴模型的存储与粘贴链结构、基本操作进行了补充、改进,然后,结合Chamlon算法进行聚类。基于k-臂DNA计算模型的划分聚类算法中,将DNA计算与网格聚类思想相结合,使用网格将二维数据转换到不同的单元格上,设定核心,对每个核心及其连接的顶点进行4-臂DNA编码,在试管中并行产生DNA团,以达到聚类的目的。本文对传统的膜计算模型进行了扩展,并且提出了新型结构膜系统,使用形式语言证明其计算能力,将扩展的膜系统与新型膜系统用于数据挖掘聚类分析中,并通过实验进行了比较分析。使用著名Adleman模型、改进的粘贴模型以及K-臂DNA计算模型进行聚类分析。将上述技术应用到实际问题中。由于膜计算、DNA计算的并行性,在处理数据挖掘任务方面有着极大的潜力,不论在生物信息领域,还是商务智能领域都有着重要意义。
其他文献
针对我国传统边坡防护措施的缺陷,介绍了国内外边坡植被防护技术研究现状,分析了目前植被护坡技术存在的问题,并对其解决途径进行了探讨,阐述了植被护坡未来发展趋势,以期促
南昆铁路施工机械化综述铁道部武汉工程机械研究所铁路施工机械化科技情报中心张仲礼南昆铁路是沟通西南和华南沿海的重要通道,对开发云贵两省,促进西南各省和广西的经济发展有
“15世纪的人如果来到21世纪,一切都会是陌生的,唯独有两处是熟悉的,一个是教堂,另一个是学校。”71岁的美国教育家魏克礼(Chris Whittle)以一个玩笑,表达了对教育现状的不满。
高脂血症是动脉硬化发生、发展的危险因素之一.血液中LDL胆固醇值越高,或者血液中HDL胆固醇值越低,缺血性心脏病的患病率越高,这是经流行病学调查得出的一个事实.这样,制定高
<正>行业协会商会与行政机关脱钩工作,政策性强、涉及利益主体多、社会关注度高,必须认真把握政策,稳妥审慎推进。《总体方案》是指导脱钩改革的基本遵循和行动纲领,明确了脱
气体绝缘组合电器(简称GIS)在高压输变电系统中应用广泛,它在电力系统中起着至关重要的作用,一旦其发生故障,损失严重。随着无损检测手段的不断发展,与传统利用传感器理化参
中国的民主政治建设主要是根据中国基本国情出发,其民主政治走的是阶段性、渐进性的发展策略,民主政治的历史比较悠久,民主政治的价值和理念包含了社会的方方面面,本文首先分
<正>东晋名士谢安少时以清谈知名,曾长期隐居山泽。有一次,他与几位好友泛舟大海,海上起了大风,小船颠簸,同船者惊惧,只有谢安临风而立,逸兴遄飞,让人见识了谢安宽宏镇定的气
WCQ100型稳定土拌和站生产率的确定长沙建设机械研究院符忠轩为了满足我国公路建设事业的不断发展和提高公路等级的施工需要,确保公路路基的施工质量,建设部长沙建筑机械研究所与湖南
本文通过收集两项建筑工程分别选用不同的建筑施工机械,分别采取不同的施工工艺方法,从而分别获得两种不同的综合经济效益,论证了高速井架升降机在高层建筑施工中应用的重要作用