一种基于重复串的STC改进算法

来源 :微计算机信息 | 被引量 : 0次 | 上传用户:ecoffe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判.本文提出了一种改进的算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC算法去重.实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性.
其他文献
采用超选择性血管插管化疗(SACH)持续灌注给药治疗巨块型宫颈癌(>4 cm)患者42例,并与一次性给药者比较,发现前者能提高患者的临床及病理疗效,提高手术机会,值得推广应用.
从现场的实际出发,分析了产生砼外观质量问题的原因,在时影响砼外观质量的因素进行分析探讨的基础上提出了控制砼外观质量的具体措施.
多频带UWB-OFDM系统是高速、短距离WPANs物理层的理想接入方案,具有广阔的应用前景.研究了在AWGN和IEEE 802.15.3a UWB多径信道模型下,基于两种不同调制技术的多频带UWB-OFDM
为寻找天然药物代替传统的杀菌剂,分别用0.05%、0.10%、0.15%的藤茶在70℃条件下浸提40min得到的藤茶浸提液,添加100×10-6mg/kg的2,4-D后,浸果30s,捞起沥干,置阴凉通风处预
以信阳毛尖茶叶沫为原料,优化儿茶素的浸提务件,考察乙醇浓度、时间、温度和液料比对浸提儿茶素的影响.采用响应曲面法建立回归模型为:Y=0.500429-0.047625X1+0.021625X3-0.0
信息管理专业人才培养模式绩效是高校信息管理专业人才培养的现状的具体反映。本文从AHP方法出发,构建了信息管理专业人才培养模式绩效评价体系,并结合人才培养模式绩效评价
以兰州地区某居住小区的3个住宅为研究对象,对不同自然通风方案下的室内热环境参数进行了现场测试,从能耗、舒适性和人工调节便捷性等方面对测试结果进行了分析评价,得到了不
针对DSR协议不能充分利用潜在路由信息、路由缓存中过期路由影响路由选择准确性以及存在数据分组额外开销较大的问题,从cache管理策略方面提出了一种优化方案——采用链路缓
在高速网络环境下,利用入侵防御系统(IPS)对全部的网络流量进行检测是一项十分巨大挑战。网络处理器是专门处理和转发网络数据流的高速可编程处理器,在网络交换及通信设备中有着十分广泛的应用。论文首先介绍IPS的特点,及其在网络安全中的重要作用;接着,详细介绍Intel高性能网络处理器的硬件组成和框架,并给出一种基于Intel高性能网络处理器的NIPS的具体设计与实现方案。
悬挑构件出现变形、裂缝的原因进行分析并介绍简便有效的预防措施及加固方法.