【摘 要】
:
基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个
论文部分内容阅读
基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个局部最优的单词表.这种方法的关键是将文本的邻接矩阵索引作为统计基础,邻接矩阵全文索引是论文 [9]提出的一种新的全文索引模型,它忠实地反映了原始文本,很利于进行原始文本的初步统计,因此算法效率得以提高,其时间复杂度与文本的汉字种数成线性关系,能够适应在线需要.并且,算法生成的压缩模型的压缩比是0.47,比基于字的压缩模型的压缩效率提高25%.
其他文献
采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使
8月11日一早在电话声中醒来,回拨过去,传来的是朋友急切的声音:“张妮,你家还好吗?”我揉揉朦胧的眼睛,看了一眼窗外刺眼的太阳,十分诧异地回答:“应该还好吧,怎么啦?”
新中国成立60年,中国共产党和中国政府始终把关注民生和社会建设放在重要位置。2009年是新中国社会建设的一个里程碑。3月,《中共中央、国务院关于深化医疗卫生体制改革的意见
2010年1月将迎来西部大开发十周年。近十年来,西部大开发取得了巨大成效,西部地区经济加快发展,基础设施明显增强,生态环境得到了更有力保护,老百姓也得到了更多实惠。为了迎