基于互信息的统计语言模型平滑技术

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:rqcai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据平滑主要是用来解决统计语言模型在实际应用中数据稀疏问题.现有平滑技术虽然已有效地对数据稀疏问题进行了处理,但对已出现事件频率分布的合理性并没有作出有效的分析.本文则针对二元模型,提出了一种基于互信息的平滑技术,其基本思想是根据模型中每个二元对的互信息的高低对其概率进行折扣或补偿,并用极小化困惑度原则体现了模型的合理性.实验结果表明该技术优于目前常用的Katz平滑技术.
其他文献
20D8年底召开的中央农村工作会议通过了《中共中央国务院关于2009年促进农业稳定发展农民持续增收的若干意见》,进一步明确了新形势下2009年促进农业稳定发展和农民持续增收的
党的十一届三中全会以来的实践一再证明,越是深化改革、扩大开放、发展社会主义市场经济,越要重视思想政治工作。在当前改革力度不断加大,各种矛盾相对集中的情况
最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域并改善了检索系统的性能,但是其隐含的词汇间相互独立的假设并不符合实际情况.尽管统计翻译模
3月3日上午,出席两会的政协委员.经济学家厉以宁在下榻的酒店被记者团团包围。并就高房价问题表示。征地制度需要改革。
问答系统(Question Answering System)能用准确、简洁的答案回答用户用自然语言提出的问题.目前多数问答系统利用大规模文本作为抽取答案的知识库,而网络上丰富的资源为问答
受国际金融危机影响,国内钢材市场价格从去年7月下旬开始下跌,今年5月初,钢材价格出现反弹上涨,最近几周价格上涨较为明显,受到社会有关方面的高度关注。近期钢材价格变动情况据国
新能源具有与传统能源不同的技术经济特征,需要不同的体制环境和政策支持。我国新能源的快速发展正面临传统体制的诸多制约,急需通过完善规划、审批、价格等体制机制,调动不同主
小学生思维活跃,精力旺盛,厌烦枯燥无味的说教。小学语文新课改也在呼唤扎实、灵动的课堂教学。因此,教师必须要改变教学方式,创设具有可动性的学习情境,把课堂交给学生,使学生在课堂表演、辩论、PK中“动”起来,展示自己的同时获得知识,实现高效的语文课堂。  课堂表演学辩式教学PK游戏小学语文新课改呼唤扎实、灵动的课堂教学,该怎样实践和把握呢?这是教师们普遍关心而又感到困惑的问题。小学生天性好动,精力旺盛
随着人工智能技术的发展,基于人机会话的智能化技术成为当前研究热点,知识表示是人机会话领域的研究难点之一.在众多的知识表示方法中,框架表示法由于具有适应性强、概括性高
针对基于单元挑选的汉语语音合成系统中重音预测及实现,本文采用了知识指导下的数据驱动建模策略。首先,采用经过感知结果优化的重音检测器,实现了语音数据库的自动标注;其次