论文部分内容阅读
信息熵是信息论中用于度量随机变量的不确定性。自然语言信息熵的估计是自然语言信息处理中非常重要而且基本的问题。在试验中,使用统计的方法对250多万词的维吾尔语语料库文本进行统计,初步计算了维吾尔文的信息熵和多余度。所求得的信息熵和多余度分别为4.387比特和13%,相当接近了其它拼音文字的信息熵和多余度。