生物信息学中弱信号基序查找算法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:likeren1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物序列中查找基序是生物信息学中一个重要的计算问题,人们针对这一计算问题提出了多种模型和算法。由于真实生物序列数据的复杂性,其中有许多是比强信号基序更难提取的弱信号基序。本文作者重点研究了适合于模拟弱信号基序查找的植入(l,d)基序问题(PMP)和扩展植入(l,d)基序问题(EMP)模型;并归纳分析了基序查找的基本方法、策略和基序模型,指出了各种策略和模型的优势与不足。在此基础上对现有的基于植入基序查找问题模型的主要弱信号基序查找算法进行了分析和实验评估。针对弱信号基序查找问题作者提出了一种基于统一投影和邻居桶聚集提炼策略的基序查找算法UPNT(Uniform Projection withNeighbourhood Thresholding)。在UPNT算法中,利用统一投影策略有效减少了投影数目,并使用邻居桶聚集提炼的策略大大减少了提炼桶的数目。作者进一步使用背景分布均衡与非均衡的合成(l,d)序列两套数据集对算法性能进行测试和分析,实验结果表明:UPNT在成功率和运行时间上的综合性能优于Random Projection、AGGREGATION和Uniform Projection等投影算法,具有更强的适用性。在生物序列中还存在很大一部分带间隔的二分体基序,二分体基序中可能其中一个子基序是弱信号,但它们的组合却具有强统计显著性。作者针对二分体基序的特点提出了一种基于Box-Links枚举统计给候选基序计分的二分体基序查找算法DMDB(Dyad Motif Discoverybased on Box-Links),并通过实验验证了算法的有效性。最后,作者对生物序列中的基序查找问题进行了总结,并讨论了该方向上尚未解决的问题和发展趋势。
其他文献
在快速进步的信息时代,人们在快速的生活节奏中能以很简单的方式用搜索引擎能够在茫茫互联网中找到较为准确的用户所需要的信息。在最近几年中,搜索引擎正在飞速发展。同时桌
随着数字图像压缩技术和计算机网络技术和web技术的快速发展,数字视频监控系统的技术己经趋于成熟,进而出现了融合互联网、多媒体、人工智能的视频监控系统。分级网络视频安全
3GPP-LTE项目主要以正交频分复用(OFDM)/频分多址(FDMA)技术为核心的下一代移动通信技术。LTE的主要技术指标包括支持多种频率带宽系统、降低系统时延、支持更高的用户数据传
语音识别是实现人机语音通信的关键技术,是未来信息技术领域的重要科技发展方向。目前,语音识别技术已经得到了广泛应用,但是,诸如声控智能玩具,声控电话,声控家电产品这样的语音识
波分多路复用WDM(Wavelength Division Multiplexing)无源光网络PON(Passive optical network)是未来宽带接入网络的发展趋势,可以提供给每个用户给几乎无限的带宽,且在运维管理、
自动交换光网络 (ASON) 代表着下一代光传送网发展的方向,而控制平面技术是自动交换光网络实现的核心技术,对这一领域进行深入研究,具有十分重要的意义。ASON 网络的路由计算功
随着智能监控系统的普及,作为智能监控系统关键技术之一,目标跟踪成为众多学者们研究的热点。然而,由于跟踪场景的复杂性以及目标自身因素的影响,采用单一的特征很难达到准确跟踪
分布式星载SAR系统,是一种新的SAR体制,相比传统星载SAR优势明显。采用小卫星群编队,协同工作,共同完成SAR成像和动目标检测;由于采用分布式构形,灵活多变的基线组合,提升系统性能,提
超宽带(UWB:Ultra-Wideband)天线研究对于短电磁脉冲在雷达、通信及电磁兼容等方面的应用具有重要意义。电-磁振子组合型UWB天线集电振子和磁振子于一身,具有尺寸小、辐射效率
通常进行单片机的实验或开发时,编程器是必不可少的。仿真、调试完的程序需要借助编程器烧录到单片机内部或外接的程序存储器中。普通的编程器价格从几百元到几千元不等,对于一