基于散列技术的快速子串归并算法

来源 :复旦学报:自然科学版 | 被引量 : 0次 | 上传用户:five126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用统计方法研究东西方语言的多词单元问题和东方语言的未登录词问题时需要删除同频子串(子串归并).传统的子串归并算法时间复杂度为O(n2),在大规模语料库的处理中效率低下.提出一种基于散列技术的时间复杂度为O(n)的子串归并算法,并用数学方法证明其与O(n2)复杂度的算法等价,即输入相同时输出也相同.不同规模语料上的实验结果表明新算法能够大大缩短子串归并所需时间,适用于大规模语料库的处理.
其他文献
用Sol-gel法制备出一系列镧系离子掺杂的TiO2薄膜,经X射线衍射(XRD)、紫外可见(UV-Vis)吸收光谱表征该TiO2薄膜,并研究了其光催化活性. XRD研究结果表明:镧系离子掺杂TiO2薄
根据B型超声得到的不同发育阶段的胎盘图像,对胎盘功能进行无损自动分级. 首先从图像 中提取出用以胎盘分级的各种特征参数,然后结合医学专家的分级判断,利用模糊分类法和 数量
富营养化已成为中国大陆水体的主要污染类型之一. 由于富营养化物质具有来源广泛、成分复杂,难以进行末端处理等特点. 如何预防和控制富营养化物质的排放已成为当前水环境管
人工智能中对判断的逻辑研究,基本上被忽略.已提出的定性映射理论是判断的理论体系,现以此为基础提出1个逻辑系统QJ,意图对判断作形式化的理论探讨.
从数字图书馆的基本概念、目前在国际和国内数字图书馆发展现状、研制的数字化图书馆集成系统、信息资源数字化的组织方式,以及适应未来的图书馆机构设置及人力资源管理模式
如何通过有效的规则方式,释放知识性员工的知识创新潜能,对于知识型企业的可持续发展非常重要. 解决知识的垄断性和外部性问题是设计知识创新激励的关键. 全员激励盟约突出组织