序列和文本的熵压缩结构研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:qweasd123qweqwe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化时代,数据量的激增给我们带来了机遇也带来了信息存储及检索的挑战。字符串匹配是信息检索最基本的操作,解决该问题的常用方式为索引匹配和顺序匹配。鉴于索引匹配的高效性,使用后缀数组(Suffix Array,SA)等索引结构的匹配方式逐渐代替了传统的顺序匹配。然而SA空间过大的问题,限制了其实用性。如何高效地存储SA这一索引结构,并使其支持快速查询操作,就成为了压缩索引领域重要的研究课题之一。就压缩后缀数组(Compressed Suffix Array,CSA)这一熵压缩结构而言,近年来的相关研究都以如何高效编码Ф数组为目标。本文沿袭这样的研究路线,结合Ф数组的差值序列(gap序列)针对不同文本展现出的数据特点,设计具有针对性的CSA新结构与算法,力图改善CSA面对不同类型文本输入时的压缩率及查询效率。首先,本文以GamCSA这一双层索引框架为基础,对各种类型的标准文本输入进行实验,发现不同文本具有不一样的gap序列统计特征,具体反映在其1-gap比重和1-gap-Runs的长度上,其中1-gap表示gap序列中的1值,1-gap-Runs表示gap序列中1值连续出现次数的平均值。1-gap比重越高,1-gap-Runs的长度越长,说明文本的可压缩性越好。针对这一情况,本文引入了混合编码的策略,选择合适的编码进行各类文本的编码比重实验,并以gap序列统计特征和编码比重为分类依据,提出了在高度重复文本集上表现优秀的HiCSA,以及在普通文本集上能起到性能改善作用的NorCSA两种熵压缩新结构。HiCSA结构中应用了根据实际问题进行改进的Run-length编码,能很好地处理1-gap-Runs较长的文本,对于长为n的文本T,HiCSA的空间上界为nH_k+2n log(H_k+1)+n+o(n)位,其中H_k表示文本T的k阶经验熵。NorCSA结构中应用了BV+γ的编码方式,提高了使用单一γ编码时索引的性能,并保持了2nH_k+n+o(n)位的空间上界;之后,本文围绕HiCSA和NorCSA两种新结构,设计了高效的访问及查询算法,以快速解决count,locate和extract问题。在设计查询算法时,本文对lookup-table结构做出了改进,以适应在RL-δ新编码方式下的快速解码操作;并且提出了词汇加速表这一新结构,预先存储好词汇的后缀区间,用以改善后向搜索算法的性能;最后,本文还关注了文本词频对查询操作的影响,针对采样位置判断点的分布情况,使用SA位置采样方式,提出了一种新的变长采样策略,并设计了对应的结构和算法以加快locate问题的解决。实验表明,本文提出的HiCSA和NorCSA熵压缩新结构具有较好的压缩率及查询时间,尤其在locate时间上与其他主流索引相比具有一定的优势;并且我们提出的变长采样策略也得到了有效性的验证,与定长采样相比,它能在locate时间上获得8%~70%左右性能的提升。
其他文献
时序数据是同一指标所代表的关于一系列时间点记录的数据列,记录了主体在时间维度上的状态变化和发展规律,如金融股市变化、市场发展规律、水文监测等,有效对时序数据进行查询与分析,能够动态的掌握事物发展趋势,并对作出正确的决策具有特殊的指导意义。近年来,随着互联网应用的逐渐增多,时序数据量产生了指数式增长,并且用户对互联网产品体验的高标准,使传统的单机解决方案已不能满足需求,如何对这些数据进行高效的查询与
板书是课堂教学中的重要组成部分,现阶段教师的板书仍需提升。本文以二年级部编版教材为例,结合当下的板书现状,将针对于提高板书教学的策略作以研究。
随着科学技术的发展,传统的电通信方式在数据容量和速度方面已经无法满足人们的需求。研究者期待出现超大带宽,更高光谱效率和高阶调制格式的光通信系统,基于相敏参量放大的全光信号处理技术正好解决了这些问题。相敏参量放大器(phase sensitive amplifier,PSA)可广泛用于低噪声放大和波长转换,甚至更高阶调制格式信号再生。硅基波导具有良好的模场限制功能和极大的非线性系数,能与各种新型材料
随着社会经济的不断发展,多媒体教学模式得到了广泛的使用,多数教师重视多媒体教学的推广而逐渐减少了板书这一教学方法的使用。作为一种传统的教学手段,板书依然具有众多优
桥梁健康监测系统全天候监控桥梁运营状况,采集桥梁正常运营状态下的结构响应数据,为桥梁的维护保养和状态预警提供依据与指导。斜拉索是斜拉桥的主要承重构件,同时也是薄弱环节,很容易产生锈蚀、断丝、疲劳等损伤问题对斜拉桥的运营产生不利影响。拉索索力是斜拉桥健康监测系统的重要监测项目,如何通过监测数据评估拉索工作状态,实现桥梁安全预警是国内外的研究热点。本研究以衡阳东洲湘江大桥索力监测项目为背景,对拉索索力
不含SiO2、B2O3、P2O5等传统网络形成体的TiO2基、Nb2O5基新型氧化物玻璃具有超高折射率等优异光学性能,在激光、显像等领域具有广阔的应用前景。但传统的熔化-凝固方法会导
随着乡村振兴战略的全面实施,乡村的地位逐步提升,而乡村农业空间正是乡村振兴实现产业兴旺最终的空间落脚点。本文基于山地型乡村农业空间(含乡村生产空间与乡村生活空间)现
地物目标的高精度、自动化定位及分类技术在3D数字城市构建,甚至在“智慧城市”、“智慧中国”建设中起到至关重要的作用,同时它是国家大力倡导和重点发展的学科领域,在抗震救灾、人员搜救、军事侦察等诸多领域都有着广泛的应用需求,本论文研究课题即在此背景下提出。传统方法中,实现定位通常采用人工测绘或(Global Position System,GPS)辅助航空摄影测量实现,但该方法需要布设地面控制点(Gr
在实际的工程生产中,有很多的工程结构具有沿某一方向运动的特性,他们可以简化为一类物理模型,这就是轴向运动结构。比如动力传送带、电梯升降机缆绳、传动带等都可以简化为
有机光伏技术(OPV)代表薄膜光伏技术,为低成本和美观的(彩色、柔性、均匀、半透明)太阳能电池提供了吸引前景,可在大型表面印刷。在本体异质结(BHJ)OPV器件中,有机电子给体和