基于共现词频的序列相似性研究

来源 :福建师范大学 | 被引量 : 0次 | 上传用户:xiaopingchina99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着第二代测序技术的发展,产生了大量的生物序列数据,这些丰富的数据资源为科研人员的研究提供了便捷,也提高了人们的工作效率。在这些数据资源给人们提供便利的同时,也对人们如何快速有效地处理这些大数据提出了挑战。若对每条数据都进行信息提取或物种注释,既耗时工作量又很大。本工作将共现词频作为研究序列相似性的主要指标,并从以下三个方面展开研究:首先应用一种归一化的共现词频方法——Jaccard进行序列相似性计算,然后将共现词频技术与图模型结合,计算序列权重,最后应用序列权重进行序列聚类。主要工作结果如下:(1)基于改进的Jaccard系数文档相似度计算方法。针对传统的文档相似度计算方法中存在的相似度计算不精等问题,提出一种基于改进的Jaccard系数确定文档相似度的方法。通过文本预处理,按照一定的滑动窗口大小,对文本进行分割,将文本用L字元素(k-mers)表示,并记录其在每个文档中的出现频度。通过对两文本间存在的共现k-mers词频做归一化处理、计算其在文本中所占比重及对两文本相似度所做的贡献,得到两文本基于改进的Jaccard系数文档相似度。随后利用搜狗实验室提供的语料,对本工作提出的相似度计算方法的有效性与准确度进行验证,并且探讨该技术方案下,L字元素的长度与相似度的关系。结果显示,随着L字元素长度的增加,两文本的字符重复比例与相似度的线性回归关系越明显,相似度计算越精确。(2)基于图的序列权重计算模型:SeqRank。基于二部图的思想,将共现词频技术与图模型结合,提出一种序列权重计算算法——SeqRank,对序列的重要性进行计算。而后计算序列在一维投影下的相似度,以此验证本工作提出的SeqRank算法的特点,即:序列相似,则权重相近。实验结果表明,MLST-8数据的权重计算结果图呈现出:类别相近的簇,即相似序列,其在权重分布图上位置较接近。该结果充分验证了本工作提出的SeqRank算法的特点。(3)基于SeqRank的聚类算法。本工作基于序列权重,提出一种序列聚类算法。该算法在对k-mers进行分组的前提下,对序列构建序列—k-mers二部图。首先计算序列在不同分组k-mers下的重要性,然后对其进行逆序排序,按照排序后的均匀间隔,从每组中各筛选出k(中心数)条序列,对其去重后将其作为中心的候选序列。接着以候选序列中的k-mers频度为特征,进行K-means聚类,对聚类结果中的每个簇,筛选出与当前质心最为接近的点作为序列中心。最后以所有序列中k-mers的频度作为特征,再次进行K-means聚类,得到本次实验的最终聚类结果。通过与序列比对软件Afcluster、QCluster和USEARCH以及SSAW在F1值与运行时间上的对比,充分地显示了本工作所提出的SeqRank聚类算法的有效性。
其他文献
苯并咪唑酮是含有两个C-N键的杂环化合物,可用于制备多种重要的有机化合物。苯并咪唑酮及其衍生物不仅被用作受体拮抗剂、受体激动剂、HSP90抑制剂,而且在遗传性疾病、胃肠道
泥炭(质)土是自然界中有机质含量最多的土类,具有独特的工程性质。其有机质主要来源于植物枝叶、根系、分泌物及动物的分解残余,是土壤微生物的能量源,也是土壤中最活跃的物质组成部分,对泥炭土的工程性质影响很大。岩土体中存在大量的微生物,其生命活动会改变泥炭土有机质含量和组分,从而改变土的工程性质。将微生物过程加以控制和利用来解决具体的岩土工程问题,称为微生物岩土技术。近年来,利用微生物岩土技术改良岩土体
设C表示middle-third Cantor集且N:={0,1,2,3,…}.在本文中,我们基于Utz的方法[21]较系统地研究了Cantor集的平方和问题.我们研究了Athreya,Reznick和Tyson在[2]中提出的一个关于Cantor集平方和的猜想:每个u ∈[0,1]可以表示为t21+t22+t33+t24,ti ∈ C,i=1,2,3,4.我们证明了Vu∈[∪∞n=0[1/9n·
卤醇脱卤酶是一类重要的蛋白质,它不仅能通过开环反应催化有毒污染物的降解,还能作为亲核试剂促进高价值药物中间体的生成。卤醇脱卤酶在自然界中的分布极为稀少,目前仅在少数菌株中发现过卤醇脱卤酶酶活性的表达。已有的生成卤醇脱卤酶的生物实验虽然可行,但存在成本高昂且效率过低的问题。因此,根据已测定的卤醇脱卤酶序列高效挖掘更多的新卤醇脱卤酶序列,丰富已有的卤醇脱卤酶数据集的需求显得尤为迫切。另一方面,深度生成
自发地理信息(VGI)由于其自身所具有的高度可用性与多样性而吸引了大量研究。然而对于许多组织而言,在使用VGI时很重要的一点是确保其质量达到一定的水准。位置坐标是地理数据的一个基本属性,因而位置准确度作为VGI中位置质量的度量一直是相关学术研究中的热点问题。通过缓冲区方法,研究人员使用服从严格收集标准的参考数据集来评估地图类型的VGI的位置准确度。本论文的研究内容包括:(1)缓冲区半径的理论大小。
关于投资者情绪的研究一直是金融领域的热门课题,而国内外对于投资者情绪与金融领域之间的研究结果还存在着较大的分歧。因此,更准确的衡量这些心理情绪等非理性行为,分析并理清其与股市之间的影响效应,从而对网络舆论与金融市场的探索注入新鲜血液。本文以新浪财经股吧和西南证券金点子财富管理终端为数据来源,通过网络爬虫的方式采集了上证50社区股民评论文本数据,对原始数据进行了去噪、分词、停用词删除等一系列预处理。
由于节能环保及轻量化的需要,铜、铝异种金属管的混合使用是一种必然的趋势,其有效连接是制造领域有待解决的关键问题。在铝铜异种金属管钎焊过程中,存在着钎料布置困难以及
苦荞麦是我国一种重要的药食两用农作物,具有生命力顽强、营养丰富等特点。以苦荞麦为原料制作的苦荞酒口感醇和,风味独特。本文对苦荞黄酒、苦荞蒸馏酒的酿造工艺和酒糟黄酮
近几十年来,有机污染物在废水中的不断增加和细菌等微生物的大量滋生对生态环境和人们的身体健康构成了巨大威胁,同时细菌在死亡后留下的细菌残骸还会释放出引起伤寒、霍乱等疾病的内毒素物质,进而引发二次污染。因此,如何在降解废水中有机污染物的同时杀灭有害微生物成为当代科学研究的热点。由此,光催化作为一种简单、高效的有机物催化氧化技术且兼具抗菌作用而得到迅速发展。众所周知,TiO_2因其绿色环保、无二次污染、
相比目前常用的重金属检测手段,电化学方法具有操作简便、设备价格相对低廉、检测速度快,仪器体积小,易于实现便携等优点。然而,与AAS(原子吸收)法相比,电化学方法也存在一定的局限性,主要表现在最低检出限,以及稳定性较弱两个方面。石墨烯作为一种新兴材料,凭借其超高的比表面积、良好的机械性能和电化学性质等优异性能,在化学修饰电极方面得到了广泛的应用。本研究制备了磁性三维石墨烯复合材料,并对不同修饰修饰材