论文部分内容阅读
文字符号的极限熵是在充分考虑上下文信息条件下,字符所包含平均信息量的大小.本文分别利用两种统计方法来估计汉字的极限熵:第一种方法通过计算汉字的n阶熵来逼近极限熵;第二种方法则通过建立统计语言模型,计算模型与平衡测试样本集之间的交叉熵给出汉字极限熵上界的估计.在实验中我们比较了这两种方法并得出结论:基于词的语言模型估计方法比基于字的直接计算方法得到了汉字熵的更为精确的估计,其熵值为5.31比特.实验中我们还使用了多种平滑技术对模型进行平滑,并比较了这些方法的优劣.