基于逐层剪枝的中文高频重复模式快速提取算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:hsxy8848
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了从大规模语料中快速提取高频重复模式,以递增n-gram模型为基础,使用散列数据结构提取重复串,并提出了一种基于低频字符和层次剪枝的逐层剪枝算法,用于过滤低频垃圾字串,减少I/O读写次数.在此基础上,应用改进的字串排序算法,使字符串排序可在O(n)时间内完成,从而有效提高重复模式的提取效率.实验表明,该算法是一种有效的重复模式提取算法,其I/O读写次数同语料规模呈线性关系,远小于使用首字符进行语料划分的方法,能快速有效地从规模远大于内存容量的文本语料中提取重复模式,特别适合于大规模语料的高频重复模式提取
其他文献
随着新医改的不断推进,对医院运营管理提出了全新要求。财务管理作为医院管理中的重点内容,需要在此背景下,不断创新财务管理路径,提高财务管理有效性,并且做好财务管理监管
以小概率事件风险识别为研究对象,提出一个基于残余抗原学说的动态记忆风险识别模型DMRIM.DM-RIM针对小概率事件风险的无规则等特点,将风险的强度和频度直观地、动态地映射为
在提倡教育现代化的今天,笔者所在学校的教育条件依然落后,复读机还是广大教师的"掌中宝",借助复读机,不仅便于模仿、有益于听说训练,而且还有助于背诵课文、学唱歌曲等。
科学发展观是我国经济社会发展的重要指导方针,是发展中国特色社会主义必须坚持和贯彻的重大战略思想。科学发展观对新形势下的统战工作提出了新任务、新要求,深入贯彻落实科
目的探讨葫芦素B对激素受体阳性的人MCF-7乳腺癌细胞生物学行为的影响及其机制。方法培养人MCF-7细胞,随机分为对照组和20μM、50μM、100μM葫芦素B组。SRB法观测葫芦素B对
现代社会风险无处不在,应急管理工作的能力已经成为我国公共安全领域国家治理体系和治理能力的重要构成部分。应对突发事件要放眼长远,运用法治思维和法治方式,从体制机制的
现代科技场馆是顺应科技进步和社会发展从传统的科技博物馆演变而来的,.从具有划时代意义的德意志博物馆开始,科技馆已不再是传统意义上的科技博物馆。其功能从以收藏、研究为主
数据中心的一个重要任务是功率控制,功率封顶是数据中心对服务器设置功率消耗上限的技术。关注的是数据中心节点机一级的动态功率控制机制。基于系统级功率模型构建了进程级功率模型,并将两者整合构成"软功率计",用于监控系统功率与进程功率;为实现功率封顶,软功率计被集成到闭环控制系统中,设计了功率控制的算法,该算法在控制系统功率不超预算的情况下,系统以较好的性能运行。实验结果表明所提控制机制能有效地控制系统的
从婴童不同年龄阶段对家具的需求出发,探寻能够伴随婴童共同成长的家具,满足相应年龄阶段的使用需求。以D4S理论(Design For Sustainability)和可成长型理念为指导,通过用户
小学语文作文是语文教学的基础,也是重点,更是为以后的学习打下的基础。写作除了要掌握结构布局和遣词造句的技巧外,还要有真情实感,真情实感的来源就是生活,生活需要观察。