基于统计的汉字极限熵估测

来源 :中国中文信息学会二十五周年学术会议 | 被引量 : 0次 | 上传用户：a234917658

【摘要】

：

文字符号的极限熵是在充分考虑上下文信息条件下,字符所包含平均信息量的大小.本文分别利用两种统计方法来估计汉字的极限熵:第一种方法通过计算汉字的n阶熵来逼近极限熵;第

【作者】

：

孙帆;孙茂松;

【机构】

：

清华大学,计算机科学与技术系,智能技术与系统国家重点实验室,北京,100084

【出处】

：

中国中文信息学会二十五周年学术会议

【发表日期】

：

2006年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文字符号的极限熵是在充分考虑上下文信息条件下,字符所包含平均信息量的大小.本文分别利用两种统计方法来估计汉字的极限熵:第一种方法通过计算汉字的n阶熵来逼近极限熵;第二种方法则通过建立统计语言模型,计算模型与平衡测试样本集之间的交叉熵给出汉字极限熵上界的估计.在实验中我们比较了这两种方法并得出结论:基于词的语言模型估计方法比基于字的直接计算方法得到了汉字熵的更为精确的估计,其熵值为5.31比特.实验中我们还使用了多种平滑技术对模型进行平滑,并比较了这些方法的优劣.

其他文献

韵律短语的语法约束研究

本文通过研究语法结构与韵律短语的关系,来研究语法结构如何制约着韵律短语的产生.前人的研究中提出,相对于停延来说,存在这样一种相对稳定的语言单位,基本节律单元,或称为韵

会议

韵律短语韵律组块语法结构语法成分组块语料库自动识别语言单位分析表制约文本试验浅层黏合节律构建构成单元词组

中科院计算所中文信息处理技术简介

中国科学院计算技术研究所从事中文信息处理相关的研究实体有三家,分别是信息智能与信息安全研究中心、多语言交互技术评测实验室及前瞻中心信息检索课题组.在计算所的统一领

会议

中科院计算技术中文信息处理信息处理技术中国科学院研究中心信息智能信息检索信息安全技术评测技术发展各有侧重实验室多语言领导课题交互

韵律与语法、语义的协同处理

本文主要分析研究了汉语的韵律与语义、语法之间的联系.通过数据分析和试验,指出语音的韵律缮是语义、句法、语用等要素的综合表现.介绍了基于句法信息进行韵律成分界定的试

会议

韵律成分语法语义语音表映射模型数据分析试验句法信息综合表要素汉语

日本临床检查员职业化制度的经验与启示

日本的临床检查员职业化制度发展较为完善,日本临床检查员的招募、培训、检查流程已形成了一套成熟的制度,对我国有一定的借鉴意义.本文结合日本对临床检查员的管理,提出完善

期刊

日本临床试验检查员职业化启示

中文语音合成系统中的韵律实现

本文中,对富士通中文语音合成系统尤其是韵律实现进行了描述.该系统是一个以音节为基本合成单元,在韵律参数预测即音长和基频的指导下,从音库中搜寻全局最优的合成单元,然后

会议

中文语音合成系统语音韵律合成单元基频预测系统评测全局最优描述结构分析参数预测富士通音节算法拼接建设波形

藏文字体的OpenType特征

随着信息技术尤其是计算机网络在我国藏族地区的发展,以及世界范围的经济、文化的不断交流,包括西藏在内的所有藏语地区的藏语文工作者和用户对高质量的藏文版本的计算机操作

会议

关系型数据库在语音语料库中的应用

本文分析了当前国内语音语料标注结果的存储结构的局限,不但从理论上分析了关系型数据库在设计语音语料库存储结构方面的优势,提出了离散型语音语料库和集中型语音语料库这两

会议

关系型数据库语音语料库存储结构语料库管理系统语言语料库语料标注一体化离散型集中型运用实践设计理论开发建设基础国内多层传媒

血管紧张素Ⅱ受体拮抗药阿齐沙坦的研究进展

阿齐沙坦是新型血管紧张素 Ⅱ受体拮抗药(ARB),与其他 ARB类药物相比,具有选择性高、降压效果显著、安全性高、耐受性好、不良反应少和心脑血管保护等优点,可单用或者与其他

期刊

阿齐沙坦血管紧张素 Ⅱ受体拮抗药高血压临床研究

基于XML的开放式语言技术平台:LTP

本文描述了一套面向Web基于XML的开放式中文语言处理平台,命名为"语言技术平台LTP".LTP包含5项主要内容:语言技术置标语言LTML、基于DOMTree的一套DLL模块、一套可视化工具、

会议

化學叢谈週期律八十周年——紀念門特雷業夫

读过普通化学的人,都知道有元素的週期表(Periodic table)。週期表把错综复杂的元素,排列成为有系统的表式,很明晰地加以分类,这对于近代化学的进展,无疑的有很重要的贡献。

期刊

近代化学元素八十十九世纪一侗表式一本原子量道一若千

基于统计的汉字极限熵估测

与本文相关的学术论文