Part-Join:基于划分的字符串相似性连接

来源 :计算机应用研究 | 被引量 : 4次 | 上传用户:yjxff520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,已有许多高效的字符串相似性连接算法被提出,但是这些算法在过滤的过程中利用的往往是字符串本身的局部信息,而忽略了字符串集合的整体信息,故性能没有得到充分的提高。为此,提出了一种基于划分的算法Part-Join,它从频率向量、字母表、频率分布三方面对数据集进行子集划分,并给出子集间的过滤策略用于排除不相似的字符串对。扩展实验表明,Part-Join比已有算法Pass-Join效率提高了10%~15%。
其他文献
为解决移动自组织网络(MANET)中网络拥塞导致的网络时延增大和吞吐量下降,提出一种基于概率的负载均衡算法,节点利用历史负载信息映射网络负载状态,用概率算法进行路由准入,从而完成负载均衡。基于历史状态的负载映射有效解决了分布式独立运算中存在的负载状态判断困难等问题,概率算法能有效克服门限准入法则存在的模糊判别问题,同时大量减少广播包的洪泛,节省信道资源。结合经典的按需路由协议,设计了H&P_DSR
针对当前DNA序列图形表达模式中存在简并现象的相关问题,提出了一种新的二元符号图形表达方式。将四类碱基的编码过程看成是构成DNA序列的元素在直角坐标平面上的移动过程,以两种不同的标志符号来解决可能出现的元素重叠情况。此方案所标志的图形不存在自交现象,从而在DNA序列和图形表达之间建立了一一对应的关系。通过实例说明该方法在对无向图和有向图表达中均能有效地降低图形简并度,并引入人工代谢系统中的编码模式
为克服单自由度PID控制器不能同时具备最佳的目标值跟踪特性和抗干扰性的缺点,结合内模控制(IMC)原理,为时滞控制系统设计了一种仅有两个滤波参数的二自由度IMC-PID控制器。提出了一种基于最大灵敏度的二自由度IMC-PID控制器参数整定方法。推导出其中一个滤波参数与最大灵敏度之间的关系,并根据最大灵敏度指标确定该参数,使系统具有较强的鲁棒性;根据系统的动态性能修正另一个滤波参数,使系统具备较强的
为改善传感器网络多维数据查询扩展、减少通信量及提高查询精度,提出了一种新的用户多维数据查询处理构架。该处理框架能有效实现支配图,并能根据用户偏好函数进行任意数据查询。该框架在节点通信量上提出了更新滤波器算法和节点处理抽取算法来达到减少数据通信量,在滤波器算法中利用滤波器来避免sink分发所有的RSsink数据的目的,而节点处理算法则采用自适应分发数据机制来减少数据的通信量。仿真结果表明,改进数据查
提出了一个独立于数据包内容的安全标记与数据流绑定方法,该方法基于包延时调制,引入数据包的到达间隔时延为安全标记的载体,使用海明码实现安全标记的差错控制,设计数据包随机分组方式,并根据绑定规则调制数据包延迟时间,实现了安全标记与数据流的隐式绑定,解决了显式安全标记绑定引起的针对性攻击和灵活性不足等问题。理论分析和实验结果表明,该绑定方法对网络随机时间扰乱具有健壮性,能保证网络传输中安全标记的安全性。
主要针对构建基于SaaS模式的通用评审系统时需要解决的数据存储问题展开。着重对传统的可定制数据存储模型中,存储利用率和数据访问性能较低的缺点,结合数据访问热度指标、数据切分理论和元数据驱动的思想,在传统键值对数据存储模型的基础上,提出了适用于可定制的SaaS系统的基于热度的元数据驱动键值对区分调用的存储解决方案;同时,通过引入缓存机制对改进后的可定制数据存储模型进行了优化。最后对新模型和优化算法进
本文认为,科研的水平和实力不仅决定了大学教学和社会服务的水平,而且是评价和衡量大学之学术地位和社会地位的最主要指标之一。论文从四个方面考察了前美国密歇根大学校长杜
提出了一种基于上下文的语义映射方法 SM-Context(semantic mapping based on context)。SM-Context首先为本体模型中的概念找出表示其语义信息的上下文,然后采用谓词逻辑的形式表示概念的上下文,最后将本体映射问题转换成命题可满足性问题(SAT),并通过推理方式建立本体之间的语义映射关系。为了验证所提方法在处理本体映射问题时的可行性与有效性,采用OAEI所
为了充分发掘混合蛙跳算法求解复杂优化问题的能力,提出了一种新颖的改进混合蛙跳算法。改进算法借鉴粒子群优化算法的速度更新方式,通过族群中随机个体、最优个体和最差个体间的位置关系来确定最差个体的更新步长;借鉴差分进化思想,通过伪差分变异产生虚拟个体来更新最差个体,以提高种群开拓能力。通过对四个典型测试函数的仿真实验表明,相比其他几种改进算法,改进算法以100%的概率找到了某些函数的理论最优值,寻优效果
专题研究 高等教育财政:挑战与探索 世纪的转换与高等教育财政…………………………………金子元久(1-2) 私有化与美国高等教育财政的新趋势……………………………………罗杰&#