基于邻接矩阵全文索引模型的文本压缩技术

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：tianzhiyou258

【摘要】

：

基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个

【作者】

：

陶晓鹏胡运发

【机构】

：

复旦大学计算机系

【出处】

：

中文信息学报

【发表日期】

：

2004年1期

【关键词】

：

计算机应用中文信息处理邻接矩阵文本压缩压缩模型基于不定长单词的Huffman编码 computer application Chinese infor

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个局部最优的单词表.这种方法的关键是将文本的邻接矩阵索引作为统计基础,邻接矩阵全文索引是论文 [9]提出的一种新的全文索引模型,它忠实地反映了原始文本,很利于进行原始文本的初步统计,因此算法效率得以提高,其时间复杂度与文本的汉字种数成线性关系,能够适应在线需要.并且,算法生成的压缩模型的压缩比是0.47,比基于字的压缩模型的压缩效率提高25%.

其他文献

Co—training机器学习方法在中文组块识别中的应用

采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使

期刊

计算机应用中文信息处理co-training算法中文组块分类器computer applicationChinese information pro

在美国遭遇洪灾

8月11日一早在电话声中醒来，回拨过去，传来的是朋友急切的声音：“张妮，你家还好吗？”我揉揉朦胧的眼睛，看了一眼窗外刺眼的太阳，十分诧异地回答：“应该还好吧，怎么啦？”

期刊

洪灾美国太阳

完善基层公共服务体系，促进社会建设

新中国成立60年，中国共产党和中国政府始终把关注民生和社会建设放在重要位置。2009年是新中国社会建设的一个里程碑。3月，《中共中央、国务院关于深化医疗卫生体制改革的意见

期刊

社会建设公共服务体系医疗卫生体制改革新中国成立医疗卫生制度中国共产党中国政府中共中央

以主体功能区建设推进战略、体制机制创新——兼论西部大开发战略的下一步

2010年1月将迎来西部大开发十周年。近十年来,西部大开发取得了巨大成效,西部地区经济加快发展,基础设施明显增强,生态环境得到了更有力保护,老百姓也得到了更多实惠。为了迎

期刊

西部大开发战略机制创新功能区体制西部地区经济基础设施生态环境出谋划策

基于邻接矩阵全文索引模型的文本压缩技术

其他学术论文