论文部分内容阅读
数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题.现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事件频率分布的合理性并没有作出有效的分析.本文则针对二元模型,提出了一种基于互信息的平滑技术,其基本思想是根据模型中每个二元对的互信息的高低对其概率进行折扣或补偿,并用极小化困惑度原则体现了模型的合理性.实验结果表明该技术优于目前常用的Katz平滑技术.