【摘 要】
:
转录调控是后基因组时代研究的热点之一,转录因子结合位点(或顺式调控元件)是一类非常重要的功能元素.构建转录因子结合位点数据库是转录调控中的重要工作,从日益增长的相关文献中挖掘转录因子结合位点是构建转录因子结合位点数据库的重要途径.在借鉴QA(question answering)问答系统的基础上,提出以"问题网"Qnet(question net)为核心概念的转录因子结合位点文本挖掘算法Qnet-
【机 构】
:
复旦大学计算机与信息技术系 上海 200433
【出 处】
:
第二十五届中国数据库学术会议(NDBC2008)
论文部分内容阅读
转录调控是后基因组时代研究的热点之一,转录因子结合位点(或顺式调控元件)是一类非常重要的功能元素.构建转录因子结合位点数据库是转录调控中的重要工作,从日益增长的相关文献中挖掘转录因子结合位点是构建转录因子结合位点数据库的重要途径.在借鉴QA(question answering)问答系统的基础上,提出以"问题网"Qnet(question net)为核心概念的转录因子结合位点文本挖掘算法Qnet-BSTM(Qnet transcription factor binding site text mining),通过训练经过人工标注的文献数据构造系统模型,然后基于此模型利用QA系统方法对文献全文进行转录因子结合位点挖掘.实验结果表明,Qnet-BSTM算法查全率和查准率分别达到79%和72%以上.
其他文献
随着计算机应用的不断发展和深入,高维数据的应用也越来越广泛.而传统的数据库索引技术如B+-Tree并不能提供高效的多维数据的存取.提出一种高效的多维点访问方法RP-Tree,该方法基于R-Tree结构,通过在插入算法中引入新的节点重构技术有效减少R-Tree中节点间的重叠区域.通过大量实验,证明该方法在经过测试的所有不同分布的高维点数据的存取中,无论是点查询还是区域查询,都要优于R*-Tree和K
MLCA是判断XML非完全结构查询结果是否有意义的重要方法之一,但目前MLCA求解方法是基于树模型的方法,且对任意一对节点的MLCA求解效率低。采用XML图模型下的基于区间编码的XML存储结构和基于前驱索引集合(SSPI)的引用关系存储结构,结合存储结构提出一种高效的任意节点对的MLCA求解方法。实验表明,与Timber的MLCA算法相比,该方法的运行时间平均降低95%.
研究了树型文档的结构相似性度量,提出了一种二维的树型文档结构相似性度量方法。该方法首先计算文档树的结构摘要以对树型文档进行约简.然后,提出了两个特征集,它们分别从不同的角度反映了摘要树中的结构特征,而且相互补充.与这两个特征集相对应,提出了一种二维的结构相似性度量,其中包含两个相似度:纵向结构相似度和横向结构相似度,将它们结合起来,可以得到比较准确的最终的相似度.在实际数据集和合成数据集上的实验结
关键字查询方法为用户提供了友好便捷的查询方式,如何定义有效的查询语义是XML关键字查询要解决的基本问题。重点研究了XML关键字查询的语义,以实体作为基本语义单元,提出了最低公共实体祖先LCEA的概念,一个LCEA结点是描述现实世界完整信息单元的实体对象.在LCEA的基础上,提出了有意义的最低公共实体祖先MLCEA,在为用户提供简单易用查询方式的同时,避免了漏解和返回无意义结果的现象.提出了计算LC
检验查询可满足性是XML文档查询的一个重要问题。Active XML(AXML)文档在XML文档中引入嵌入式Web服务,增强了文档的动态性和灵活性,同时也为现有文档查询可满足性问题的解决方法提出了新的要求和挑战。研究了模式约束下的AXML文档查询可满足性问题,给出了AXML查询可满足性问题的形式化定义,基于树自动机理论,针对XPath树模式查询片段{"/,//,[]"},提出了一种多项式时间的AX
针对XML数据中大量的数据冗余,已有很多XML数据压缩方法的研究,但结合具体应用对XML数据压缩进行的研究还很少.以生物XML数据为研究对象,提出基于Schema提取可压缩子结构的XML压缩算法SCSC.根据生物XML数据层次嵌套简单、子结构重复高频出现的特点,提出可压缩子结构的概念.利用XML Schema提供的丰富结构信息建立XML扩充结构树,提取可压缩子结构,并设计可压缩子结构编码方案,对X
作为互联网上数据的表示和交换事实上的标准,XML已经广泛应用于许多领域.提出一种基于相关性(related)语义来扩充XPath的表达能力,使得用户在不了解文档模式的情况下可以轻松表达自身的查询请求.提出基于related语义的XML Twig查询处理方法rTwigStack,可以高效处理包含related语义的查询.在此基础上,提出基于DTD模式的优化算法rTwigStack+来提高查询效率。通
目前一些比较成熟的数据流管理系统,大都使用多元存储模型在内存中存储数据.研究表明,多元存储模型的缓存利用率不高,在处理大量、快速、时变的数据流时,影响查询的响应速度.为了更好地管理和存储来自无线传感器网络的实时数据流,提高查询性能,提出一种带时间偏移的页面存储模型(model using time offset,MUTO).它基于属性划分策略按页存储实时数据流,并在页头存储本页数据流采样起始时间戳
无线传感器网络资源有限,在传感器节点处对数据进行压缩,可以减少数据流的传输量,节约通信带宽.目前已有的数据流压缩算法没有同时考虑数据流内部的多态性,而实际应用中,传感器网络采集的数据既有事件发生前的常态数据,又包含事件发生期间的非常态数据.针对多态数据流提出了一种线性预测综合压缩算法,对常态数据流和非常态数据流采用不同的压缩算法,并通过动态调整移动系数和预测模型以获得比较高的压缩性能.实验表明,在
数据库分区技术采用"分而治之"的策略来降低管理海量数据复杂性,提升系统性能,其中以区间分区最为常用。实时数据仓库通常要求迅速地对数据仓库数据进行分区以满足实时性要求.常规的区间分区算法的时间复杂度随着分区个数增加而线性增长,不适合海量数据实时分区的要求.为提高海量数据的分区速度,研究了现有数据库分区算法,提出了一种有效的针对海量数据的非等数据量的区间分区算法NEP,该算法通过允许各分区的数据量在小