基于长度分区的集合相似度查询方法的研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:nc_xujian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集合作为一种高效的数据表示手段,已经应用于很多领域,例如可用于表示用户听音乐的喜好,购物网站的商品,生物信息工程中的基因序列等。近年来,随着电子商务、信息检索、生物信息工程等领域的快速发展,数据集合的规模和复杂度不断增大。快速处理海量且复杂的集合相似度数据已是近年研究的热点。在相似度查询计算中,往往会存在一些因为集合长度太长、或者太短导致两个集合完全不可能满足给定的相似度阈值的情况,对这些集合进行过滤或计算时消耗了大量的不必要的时间与空间。为解决此问题,本文首先提出一种基于长度分区的集合相似度查询方法。将长度分区的思想与经典的相似度查询算法ScanCount相结合,通过数据预处理、长度分区及高效的索引结构LenSegII(Length Segmented Invert Indexes)快速过滤不可能相似度的记录,从而提升算法效率。此外,设计更为精简的计数数组,从而降低了空间开销。在多个数据集上的实验表明本方法具有更高的时间和空间效率。现今大多数集合相似度查询算法都是以CPU串行或CPU并行扫描倒排列表的方式工作的,因而效率以及吞吐量都比较低,难以适应大规模及超大规模集合的快速相似度查询的需要。随着集合数据的增加,海量的集合数据需要有高效的集合相似度查询算法。为此,本文设计了基于GPU的并行分区集合相似度索引结构LenSegSM(Length Segmented Signature Matrix),该结构设计了精简的特征数组以降低空间开销,最后在使用签名矩阵计算相似度时,通过长度分区可来快速过滤不可能满足相似度的记录,从而提升算法效率。
其他文献
在移动互联时代的大背景下,音频数据分享给人们带来方便的同时,也容易造成数字版权的篡改和盗用,从而数字水印技术应需而生。音频数字水印抗毁性的研究对于数据的安全至关重
金华火腿作为极具中国特色的干腌火腿,其以独特的品质在国内外久负盛名。风味是评价火腿品质及等级最重要的指标,这依赖于内源酶和微生物的作用。目前对火腿风味的研究仍较为局限,微生物对火腿风味形成的作用及其重要性并未深层次挖掘。此外,研究表明Autoinducer-2(AI-2)信号分子与食品的腐败和发酵过程有关,但目前关于AI-2与食品风味形成的研究相对较少,针对AI-2/LuxS群体感应系统(Quor
在科学技术飞速发展的21世纪,检测和分析手段的多元化让人们对自身以及环境有了越来越多的认识,也使得人们对自身和环境的重视程度越来越高。过去许多的检测手段和分析方法由
近年来,从多个数据源得到的多种形态的数据呈现指数级爆炸型增长,如何有效提取隐藏在繁杂数据表象下数据内在性质及规律是机器学习等领域研究的热点。多流形模型中观测数据位于或近似于多个嵌入在高维欧氏空间中的内在低维流形上这一假定符合聚类分析寻找观测数据多个互不相交分组的学习任务。而采用谱分析方法学习数据的流形结构是一种行之有效的方法。因此本文希望能通过学习数据的谱流形结构实现对其的聚类学习。本文主要工作包
多输入多输出(Multiple-Input Multiple-Output,MIMO)技术可以在不使用额外的传输能量和带宽的情况下成倍的提高信号传输速率。MIMO系统的检测技术通过算法抵消信道干扰和信道噪声从而在接收端接收准确的信号。MIMO系统的检测技术经过多年的研究,到目前为止大约分为最优检测算法和次优检测算法,次优检测算法中又分为线性检测算法和非线性检测算法。最优检测算法拥有最好的检测性能但
研究背景:伤害作为全球重要的公共卫生问题,也是导致儿童青少年受伤、残疾、死亡的重要原因之一,全世界范围内每年大约有95万名18岁以下的儿童青少年死于伤害。在中国,外来民工群体是特殊的弱势群体,其子女的伤害发生情况越来越受到社会各界的重视,据我国第六次人口普查结果显示,大陆地区移民人口家庭儿童总数达到3 581万。国内外研究显示,民工子弟学校学生的伤害频次高于本地学校学生,其伤害问题严峻。为此本研究
小麦醇溶蛋白因为其独特的自组装特性、成膜性、粘附性及生物兼容性,常被用于荷载一些生物活性分子。反溶剂沉淀法制备小麦醇溶蛋白纳米颗粒(Gliadin Nanoparticles,GNPs)具有简单、节能、快速等优点,但是制备出的纳米颗粒在人体温度下的稳定性较差,极大的限制了其应用前景。本研究尝试通过包被过氧化氢酶(Catalase,CAT)的方式来提高小麦醇溶蛋白纳米颗粒的稳定性,并且对获得的过氧化
我国《刑法》第25条规定:“共同犯罪是指二人以上共同故意犯罪。二人以上共同过失犯罪,不以共同犯罪论处;应当负刑事责任的,按照他们所犯的罪分别处罚。”刑法学界通说观点主张过失共同犯罪不成立共同犯罪,他们认为肯定过失共同犯罪会与现行刑法的规定相抵触。但是近年来司法实务中已渐渐出现肯定过失共同犯罪的判决,出现的法律规定与实务操作相矛盾的情形也是一直为学者们所诟病。此外,2000年出台的《最高人民法院关于
由于深层结构具有对数据的良好表征能力,近年来它被广泛的应用于众多领域。属性是被用来描述数据的一种特殊数据类型,目前也被成功用于提升很多任务的性能。然而,将属性引入
糖消颗粒的组成是熟地黄、山茱萸、山药、牡丹皮、枸杞子、天花粉、天冬、麦冬、北沙参、牡蛎、肉桂、黄芪十二味中药,此药物具备滋阴、固肾作用,一般应用于因糖尿病导致的肾