【摘 要】
:
为了从大规模语料中快速提取高频重复模式,以递增n-gram模型为基础,使用散列数据结构提取重复串,并提出了一种基于低频字符和层次剪枝的逐层剪枝算法,用于过滤低频垃圾字串,
【机 构】
:
新疆师范大学初等教育学院,新疆师范大学计算机科学技术学院
【基金项目】
:
本文受国家自然科学基金项目(61163045,61263044),新疆维吾尔自治区高校科研基金(XJEDU2012S29),新疆师范大学重点学科招标课题(12XSXZ0601)资助.
论文部分内容阅读
为了从大规模语料中快速提取高频重复模式,以递增n-gram模型为基础,使用散列数据结构提取重复串,并提出了一种基于低频字符和层次剪枝的逐层剪枝算法,用于过滤低频垃圾字串,减少I/O读写次数.在此基础上,应用改进的字串排序算法,使字符串排序可在O(n)时间内完成,从而有效提高重复模式的提取效率.实验表明,该算法是一种有效的重复模式提取算法,其I/O读写次数同语料规模呈线性关系,远小于使用首字符进行语料划分的方法,能快速有效地从规模远大于内存容量的文本语料中提取重复模式,特别适合于大规模语料的高频重复模式提取
其他文献
随着新医改的不断推进,对医院运营管理提出了全新要求。财务管理作为医院管理中的重点内容,需要在此背景下,不断创新财务管理路径,提高财务管理有效性,并且做好财务管理监管
以小概率事件风险识别为研究对象,提出一个基于残余抗原学说的动态记忆风险识别模型DMRIM.DM-RIM针对小概率事件风险的无规则等特点,将风险的强度和频度直观地、动态地映射为
在提倡教育现代化的今天,笔者所在学校的教育条件依然落后,复读机还是广大教师的"掌中宝",借助复读机,不仅便于模仿、有益于听说训练,而且还有助于背诵课文、学唱歌曲等。
科学发展观是我国经济社会发展的重要指导方针,是发展中国特色社会主义必须坚持和贯彻的重大战略思想。科学发展观对新形势下的统战工作提出了新任务、新要求,深入贯彻落实科
目的探讨葫芦素B对激素受体阳性的人MCF-7乳腺癌细胞生物学行为的影响及其机制。方法培养人MCF-7细胞,随机分为对照组和20μM、50μM、100μM葫芦素B组。SRB法观测葫芦素B对
现代社会风险无处不在,应急管理工作的能力已经成为我国公共安全领域国家治理体系和治理能力的重要构成部分。应对突发事件要放眼长远,运用法治思维和法治方式,从体制机制的