【摘 要】
:
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现.通过对一些文
【基金项目】
:
国家自然科学基金,国家高技术研究发展计划(863计划)
论文部分内容阅读
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现.通过对一些文本的观察分析,我们认为作者在书写文章的时候,除了常常使用前文中出现过的词汇外,为了避免用词单调,还会在行文过程中使用前文出现过词汇的近义词或者同义词.另外,一篇文章总是围绕某个主题展开,所以在文章中出现的许多词汇往往在语义上有很大的相关性.我们对基于记忆的语言模型进行了扩展,利用汉语义类词典,将与缓存中所保留词汇语义上相近或者相关的词汇也引入缓存
其他文献
西部大开发头10年的基本思路是加大投入,打好基础,保障民生。实施10年来,成绩斐然,大量基础设施建成使用,生态环境保护取得重大进展,人民生活水平也有明显提高。目前,西部大
人民银行于2011年初正式启动了银行卡芯片化的升级,明确提出"将推动金融IC卡应用的整合并将在全国选择40—50个城市作为试点,给予更优惠的扶持政策,大力推进金融IC卡在公共服
<正>1.电容器中的气体的来源 在铝电解电容器的制造过程中,阳极铝箔上的介质氧化膜不可避免地受到损伤,如切边处、刺铆点处氧化膜被直接破坏。而电容器的老练工艺是对被破坏
本文介绍了两种电磁兼容设计的应用技术,即滤波技术和瞬变电压吸收技术。
针对目前在认证活动中出现的商业化倾向,作者强调了贯彻ISO9000的目的是为了使通过ISO9000体系审核的企业仍能够保持其质量体系持续的适应性和有效性,并指出现存的几个较为严
近年来,随着网络技术的应用普及和网民政治意识的增强,网络空间中诞生一种新的政治现象——网络政治参与。所谓网络政治参与,简单地理解可以认为是普通公民在网络环境中通过合法
本文对于机器翻译方法中的基于规则的方法、基于模板的方法及基于实例的方法进行了比较;对于完全句法分析和浅层句法分析方法也进行了分析。然后介绍了将上述方法结合起来的汉
“2010年中国GDP预计增长9.6%。考虑到经济刺激计划的逐步淡出,2011年经济增速约为9.1%,2010、2011年CPI分别达到3.6%、3.2%。”4月13日,在亚洲开发银行中国代表处召开的“后危机时代宏
5月1日,北京市发改委发布的《北京市〈商品房销售明码标价规定〉实施细则》实施。其中最受关注的是北京所有商品房实行"一房一价"。