一种新的基于对称性的字符串相似性处理算法

来源 :燕山大学学报 | 被引量 : 0次 | 上传用户:cjl11082009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于给定的两个字符串集合,基于相似度的连接操作可用于从中找出相似的字符串对,该操作是数据清洗、数据集成以及协同过滤等应用中的核心操作之一,其执行效率直接影响系统的整体性能。本文提出一种高效计算字符串集合间连接操作的算法Trie-TSS,该方法基于trie树进行处理,利用对称性来减少冗余计算。提出一种旨在减少冗余编辑距离计算操作的优化技术来进一步提升系统性能。最后通过实验验证了Trie-TSS算法的高效性。
其他文献
本文将所有基于事务和非基于事务的关联分析称为广义的关联分析.基于事务的关联分析主要依托支持度-置信度框架进行数据挖掘,而非基于事务的关联分析常采用参与度-条件概率框
2007年,唐山港完成货物吞吐量6759万吨,同比增长38.7%。其中,京唐港区完成吞吐量4750万吨。同比增长16.57%;曹妃甸港区完成吞吐量2009万吨,同比增长81.79%。全港完成外贸吞吐量3963万吨,
<正>~~
针对双馈异步风电机组的出力具有随机性这一特点,采用场景分析法对其出力进行分析,使其更有代表性;在此基础上,建立了以电压偏差最小和有功功率损耗最小的多目标无功优化模型
本文介绍了金属矿漏斗在生产作业过程中暴露出的问题;改进方案的探讨和实践过程;总结分析了新型漏斗的创新思路及新旧漏斗性能的比较等。
提出了一种新的基于交织法构造最优低/零碰撞区跳频序列集的方法.此方法构造出的低/零碰撞区跳频序列集合均是移位不等价的,各集合中的序列均达到理论界限,相关区长度在满足
针对不均衡数据分类决策面偏移导致少数类识别率较低的问题,提出一种混合取样算法。首先计算类样本数的比值 K;然后分别在多数类和少数类中随机选取一个样本,计算该样本的 K-1近
随着私家车出行比例日益增长,景区旅游交通拥堵现象严重,交通事故频发,高效、合理的交通拥堵疏散路径优化方法是缓解这一问题的根本途径。本文考虑交通拥堵环境下游客路径选
为了研究碳钢中与铁素体交界的渗碳体(001)表面的表面层原子构成,采用Materials Studio软件中的CASTEP模块对从利用密度泛函理论优化后的渗碳体体单胞的4个不同位置切取的八种
经过4年多的建设和试通航,国家港口重点建设项目——连云港港15万t级航道工程,11月底通过交通部组织的竣工验收,正式交付使用。该工程总投资12.28亿元,航道全长33.9km,可满足15万t级