基于统计的汉字极限熵估测

来源 :中国中文信息学会二十五周年学术会议 | 被引量 : 0次 | 上传用户:a234917658
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字符号的极限熵是在充分考虑上下文信息条件下,字符所包含平均信息量的大小.本文分别利用两种统计方法来估计汉字的极限熵:第一种方法通过计算汉字的n阶熵来逼近极限熵;第二种方法则通过建立统计语言模型,计算模型与平衡测试样本集之间的交叉熵给出汉字极限熵上界的估计.在实验中我们比较了这两种方法并得出结论:基于词的语言模型估计方法比基于字的直接计算方法得到了汉字熵的更为精确的估计,其熵值为5.31比特.实验中我们还使用了多种平滑技术对模型进行平滑,并比较了这些方法的优劣.
其他文献
本文通过研究语法结构与韵律短语的关系,来研究语法结构如何制约着韵律短语的产生.前人的研究中提出,相对于停延来说,存在这样一种相对稳定的语言单位,基本节律单元,或称为韵
中国科学院计算技术研究所从事中文信息处理相关的研究实体有三家,分别是信息智能与信息安全研究中心、多语言交互技术评测实验室及前瞻中心信息检索课题组.在计算所的统一领
本文主要分析研究了汉语的韵律与语义、语法之间的联系.通过数据分析和试验,指出语音的韵律缮是语义、句法、语用等要素的综合表现.介绍了基于句法信息进行韵律成分界定的试
日本的临床检查员职业化制度发展较为完善,日本临床检查员的招募、培训、检查流程已形成了一套成熟的制度,对我国有一定的借鉴意义.本文结合日本对临床检查员的管理,提出完善
本文中,对富士通中文语音合成系统尤其是韵律实现进行了描述.该系统是一个以音节为基本合成单元,在韵律参数预测即音长和基频的指导下,从音库中搜寻全局最优的合成单元,然后
随着信息技术尤其是计算机网络在我国藏族地区的发展,以及世界范围的经济、文化的不断交流,包括西藏在内的所有藏语地区的藏语文工作者和用户对高质量的藏文版本的计算机操作
会议
本文分析了当前国内语音语料标注结果的存储结构的局限,不但从理论上分析了关系型数据库在设计语音语料库存储结构方面的优势,提出了离散型语音语料库和集中型语音语料库这两
阿齐沙坦是新型血管紧张素 Ⅱ受体拮抗药(ARB),与其他 ARB类药物相比,具有选择性高、降压效果显著、安全性高、耐受性好、不良反应少和心脑血管保护等优点,可单用或者与其他
本文描述了一套面向Web基于XML的开放式中文语言处理平台,命名为"语言技术平台LTP".LTP包含5项主要内容:语言技术置标语言LTML、基于DOMTree的一套DLL模块、一套可视化工具、
会议
读过普通化学的人,都知道有元素的週期表(Periodic table)。週期表把错综复杂的元素,排列成为有系统的表式,很明晰地加以分类,这对于近代化学的进展,无疑的有很重要的贡献。