中文高频词串的抽取及其在语言模型中的应用

来源 :北京邮电大学学报 | 被引量 : 0次 | 上传用户:datouuupp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.
其他文献
12月11日上午,建筑学家、建筑师和建筑教育家冯纪忠因肺炎不治,在上海华山医院去世,享年95岁。冯纪忠1915年出生于望族,祖父冯汝骥是清代翰林,历任浙江、江西两地巡抚。1934年冯纪
在希腊神话中。雅典的著名建筑师代达罗斯负责设计了世界四大迷宫之首的米诺斯迷宫,盛传世间无人可解。而当今的科勒却还原神话之中无法复制的奇妙景象——米谱斯迷宫。米诺斯
“接待中心”应该被建构为何种形式?为从众多建筑案中脱颖而出达到能吸引购屋者目光的目的,大多数的接待中心总是极尽所能地创造各种令人惊异的样式,但终究与其建筑形式较无关联
【正】 北京市星火技术研究所代为本刊读者检索提供最新致富技术资料,该所对其真实性负法律责任。本刊读者均予优惠(汇款请注明“820232部郭静峰”字样)
第二届中国食品博览会暨国际食品进出口交易会将于今年8月28~31日在上海举行。日前,中国食品工业协会在上海召开全国食协秘书长会议,就举办“第二届中国食品博览会”等有关事宜
基于统计方法的中文组块研究大多借鉴CoNLL2000英文组块的思想,建立了组块表示的BIO模型,并将组块识别任务作为一种为词序列标注的多分类问题.为降低分类复杂度,采取了一种分解识别法,即先识别组块的边界,再进行组块类别判定.基于条件随机场(CRF)构建了级联组块识别器,实验数据集采用宾州大学中文树库(CTB5.1).在特征选择上,借鉴了中文分词特征选择的方法.5倍交叉验证的实验结果为:组块边界识
本文在对现有的波长资源分配算法进行了研究和分析的基础上,提出了一种基于容量的相对最小影响波长资源分配算法。该算法通过定义基于容量的影响因子,分析受当前波长分配影响
提出一种基于信噪比最优顺序的正交频分多(OFDMA)上行链路快速串行干扰消除(SIC)方法.该方法利用干扰矩阵的各列近似正交特性,按照它们的相关程度,得到解调后信噪比最优的串行干扰消
为了减小定位误差和提高算法的适应性,利用三维空间抽样和范围约束的方法,并结合对成功样本点的加权筛选,获得节点的三维估计坐标以实现抽样定位.针对不同的节点功能,算法可