中文高频词串的抽取及其在语言模型中的应用

来源 :北京邮电大学学报 | 被引量 : 0次 | 上传用户：datouuupp

【摘要】

：

为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串（CFS）抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验

【作者】

：

文娟王小捷

【机构】

：

北京邮电大学智能科学技术研究中心

【出处】

：

北京邮电大学学报

【发表日期】

：

2009年5期

【关键词】

：

中文高频词串字区分度字串切分度 N元模型音字转换 Chinese frequent string character distinction degre

【基金项目】

：

国家科技支撑计划项目（2007BAH05802-04）,高等学校学科创新引智计划项目（1308004）,BUPT-Nokia合作项目

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串（CFS）抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型.实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.

其他文献

著名建筑学家冯纪忠园肺炎不治病逝

12月11日上午，建筑学家、建筑师和建筑教育家冯纪忠因肺炎不治，在上海华山医院去世，享年95岁。冯纪忠1915年出生于望族，祖父冯汝骥是清代翰林，历任浙江、江西两地巡抚。1934年冯纪

期刊

建筑学家肺炎治病土木工程教育家建筑师建筑家上海

科勒罗雅丽：再现米诺斯迷宫之巴洛克华丽艺术

在希腊神话中。雅典的著名建筑师代达罗斯负责设计了世界四大迷宫之首的米诺斯迷宫，盛传世间无人可解。而当今的科勒却还原神话之中无法复制的奇妙景象——米谱斯迷宫。米诺斯

期刊

巴洛克迷宫艺术希腊神话浪漫主义建筑师

360°的风景台北The Ellipse 360接待中心

“接待中心”应该被建构为何种形式？为从众多建筑案中脱颖而出达到能吸引购屋者目光的目的，大多数的接待中心总是极尽所能地创造各种令人惊异的样式，但终究与其建筑形式较无关联

期刊

台北市风景建筑形式空间体验关联性建筑物样式

情报长廊

【正】北京市星火技术研究所代为本刊读者检索提供最新致富技术资料,该所对其真实性负法律责任。本刊读者均予优惠(汇款请注明“820232部郭静峰”字样)

期刊

索费制作技术情报麦饭石番木瓜酱菜魔芋核桃罐头饮料氨基酸饲料添加剂生产技术

中国食品博览将梅开二度——第二届中国食品博览会8月在沪举行

第二届中国食品博览会暨国际食品进出口交易会将于今年8月28～31日在上海举行。日前，中国食品工业协会在上海召开全国食协秘书长会议，就举办“第二届中国食品博览会”等有关事宜

期刊

中国食品博览会工业协会进出口上海交易会秘书长会议口交举办召开

日处理20吨大米高麦糖浆项目（上海圣埃）

期刊

高麦芽糖浆淀粉质防腐性热稳定性含糖量

级联中文组块识别

基于统计方法的中文组块研究大多借鉴CoNLL2000英文组块的思想,建立了组块表示的BIO模型,并将组块识别任务作为一种为词序列标注的多分类问题.为降低分类复杂度,采取了一种分解识别法,即先识别组块的边界,再进行组块类别判定.基于条件随机场(CRF)构建了级联组块识别器,实验数据集采用宾州大学中文树库(CTB5.1).在特征选择上,借鉴了中文分词特征选择的方法.5倍交叉验证的实验结果为:组块边界识

期刊

中文组块边界识别类别识别条件随机场Chinese chunking boundary identification type identificat

基于容量的相对最小影响资源分配算法

本文在对现有的波长资源分配算法进行了研究和分析的基础上,提出了一种基于容量的相对最小影响波长资源分配算法。该算法通过定义基于容量的影响因子,分析受当前波长分配影响

期刊

通信网络光传送网资源管理波长分配

OFDMA上行链路SIC方法及性能分析

提出一种基于信噪比最优顺序的正交频分多（OFDMA）上行链路快速串行干扰消除（SIC）方法．该方法利用干扰矩阵的各列近似正交特性，按照它们的相关程度，得到解调后信噪比最优的串行干扰消

期刊

正交频分多址串行干扰消除多用户干扰载波间干扰orthogonal frequency division multiple access success

无线传感器网络三维抽样定位

为了减小定位误差和提高算法的适应性,利用三维空间抽样和范围约束的方法,并结合对成功样本点的加权筛选,获得节点的三维估计坐标以实现抽样定位.针对不同的节点功能,算法可

期刊

无线传感器网络定位抽样方案样本点wireless sensor networks localization sampling scheme sam

中文高频词串的抽取及其在语言模型中的应用

与本文相关的学术论文