【摘 要】
:
在建立统计语言模型时,往往会遇到词典的词汇量不够的问题.对于医学等专业领域的语料,这一问题尤为严重.针对这一问题,本文提出了一种新的基于统计的识别新词方法--右边缘扩
论文部分内容阅读
在建立统计语言模型时,往往会遇到词典的词汇量不够的问题.对于医学等专业领域的语料,这一问题尤为严重.针对这一问题,本文提出了一种新的基于统计的识别新词方法--右边缘扩展法.该方法对分词后的语料中产生的连续单字词进行关联范数估计,利用右边缘扩展的方法判断词的边界.在实验中,我们将右边缘扩展法与基于Witten-Bell back off方法的两两合并法相结合,循环地调整词典,优化语言模型.实验结果表明,该算法具有很高的识别正确率与检出率,可以有效地识别出语料中出现的新词汇,尤其是专业术语.
其他文献
人口结构不仅是民族内部结构运行的基本条件之一,也是民族关系存在的基本载体之一,对民族关系产生重要的影响。民族人口数量、分布、结构、教育等因素的变化,将引起民族经济、政
亚当·斯密在《国富论》中有过这样一句话:“劳动是财富的源泉。”从生产力角度,也就是劳动者利用劳动工具,作用于劳动对象的过程,这是创造财富的真正力量。在市场经济条件下能够以劳动的形式创造财富的主体就是实体经济。作为国民经济的细胞,当前我国实体经济发展状况却并未与我们对财富的渴望程度成正比。 实体经济发展现状不理想。从生产资料所有制上看公有是主体,国有是主导,这一定位不能动摇。国有经济在发展中也面临
【摘要】高速发展的数学科学,其用性日益明显。根据数学的这一特点,在数学教学中不仅要传授学生繁杂的数学知识,更重要的是培养和发展其基本的技能,才能使学生今后更好地学习新的数学知识,并把学过的知识运用生产和科技领域,要做到这点,必须注重学生智力的开发。 【关键词】智力开发 发散性 解题思路 数学是小学教学中的一门主要学科,对于开发学生的智力,培养其灵活的思维能力和创造能力,提高少年儿童的素质,起着
过去的五年,极不平凡。经过五年努力奋斗,我国社会生产力快速发展,综合国力大幅提升,人民生活明显改善,国际地位和影响力显著提高,社会主义经济建设、政治建设、文化建设、社会建设以及生态文明建设和党的建设取得重大进展。 从今年开始,我们已进入“十二五”时期。“十二五”时期是全面建设小康社会的关键时期,是深化改革开放、加快经济发展方式转变的攻坚时期。 五年一个刻度,中国跃上新的台阶;五年一个单元,中国
人工神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的数学模型,广泛应用于自动控制、模式识别等领域.本文首先简单的介绍了人工神经网络的相关理论,接着重
神经外科病人病情重,昏迷病人多,生活自理能力差,还有些病人有精神症状,并发症多,病人及家属情绪变化大.神经外科重症监护室护士每天承受着巨大的心理压力,这无疑对护理工作