一种基于Bi-gram和HMM的中文未登录词辨识方法

来源 :第六届中国信息和通信安全学术会议(CCICS'2009) | 被引量 : 0次 | 上传用户：fuyao698

【摘要】

：

未登录词自动辨识是中文文本切分中的基础问题。在对大语料进行统计分析的基础上，提出了一种数据驱动的通用辨识方法。该方法利用Bi-gram来刻划单字词之间的共现信息，引入HMM(

【作者】

：

朱静;李建华;陆松年;

【机构】

：

上海交通大学电子工程系，上海，200030

【出处】

：

第六届中国信息和通信安全学术会议(CCICS'2009)

【发表日期】

：

2009年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

未登录词自动辨识是中文文本切分中的基础问题。在对大语料进行统计分析的基础上，提出了一种数据驱动的通用辨识方法。该方法利用Bi-gram来刻划单字词之间的共现信息，引入HMM(隐Markov模型)来计算汉字的单字成词能力和在未登录词中成词的概率分布，并将未登录词的辨识转换成网格中的路径寻优问题。为此基于动态规划设计了一种有效的搜索算法。试验结果显示该方法可获得91％以上的精度和90％以上的召回率，具有较强的推广能力。

其他文献

现代企业集团财务管理模式探讨

企业集团如何实施对子公司的财务管理,是当前企业集团财务管理工作面临的一个十分重要的问题.本文主要分析了当前企业集团财务管理模式,重点论述了如何采用电子商务建立企业

期刊

财务管理财务风险管控措施

DCT域实现篡改定位的半脆弱水印算法

提出了一种在DCT域中嵌入多重水印并可以篡改定位的实现方法。在嵌入水印认证信息后，通过只反量化修改过的系数，提高了水印作品的PSNR值。在定位篡改方面，把DC分量分为4级，以2bit

会议

篡改定位半脆弱水印认证信息形式嵌入峰值信噪比作品系数实现方法多重水印定位准确检测时反量化算法实验量值

移动互联网审计过滤机制分析与测试

移动网络的内容审计系统需要在复杂、海量的网络环境中实时采集各种协议数据，通过协议解析获得所需内容，并中断需要过滤的服务请求。因此，审计系统能否正常过滤敏感字段和非法请

会议

联网审计过滤机制审计系统网络内容网络环境移动互联网移动网络协议解析实时采集服务请求衡量标准过滤技术层次结构字段数据测试安全

N学院财务报销模式存在问题及优化研究

信息技术的飞速发展为高校传统的财报销模式带来了新的契机.本文以N学院为例,分析其传统财务报销模式存在的问题,并结合该学院实际优化财务报销流程,提出采用网上报销模式.最

期刊

高校财务网上报销措施

基于非负矩阵分解的数字图像水印算法

本文提出了一种基于非负矩阵分解(NMF)的数字水印新方法。本方法首先对载体图像进行子采样变换，然后对子采样后的样本数据进行NMF分解，水印隐藏在NMF分解后的基矩阵中。实验结

会议

非负矩阵分解数字水印子采样载体图像样本数据水印隐藏采样变换新方法透明性鲁棒性基矩阵算法实验

浅淡菩提岛旅游资源与其经济发展模式

随着旅游环境的改善,民众物质及精神水平的提升,游客对于旅游的需求越来越高,人们旅游品味逐渐提高.菩提岛作为著名旅游景点之一,其旅游经济发展从2016年至2019年发生了翻天

期刊

旅游资源旅游经济旅游项目发展模式

一种面向主题重叠情况的文本特征辅助选择模型

特征选择是文本分类系统的关键环节，本文针对不同类别主题重叠情况下提出了一个两阶段式的多词级别辅助特征选择模型。第一阶段分析文本获取多词索引项，第二阶段根据其统计分布

会议

基于报文间隔抖动的网络隐蔽通道信息传递速率估算

网络隐蔽通道的存在给网络系统造成了严重安全威胁，网络隐蔽通道中的信息传递速率则揭示了其安全威胁程度。本文分析基于报文时间间隔的网络隐蔽通道中的信息传递特性，在此基础

会议

报文时间间隔抖动网络环境下隐蔽通道信息传递传递速率安全威胁信道特征威胁评估威胁程度网络系统计算方法传递特性估算

互联网+旅游+农特产品区域旅游经济发展模式构想

随着信息网络的发展,对各行各业都产生了一定的冲击作用,各行各业发生了翻天覆地的变化.同时,结合我国优惠政策,旅游成了区域经济发展的新增长点.在互联网背景下,为了能够更

期刊

区域经济旅游互联网农特产品

追求卓越至胜立德文化建设催生“祥云”大发展——记湖北祥云(集团)化工股份有限公司党委书记、董事长、总经理胡华文

近年来,湖北祥云(集团)化工股份有限公司的快速发展,在全国磷复肥行业中产生了较大的影响,企业的知名度、信誉度不断提升。从一个地方小磷肥厂到全国磷复肥行业的佼佼者,祥云

期刊

湖北经济磷复肥行业立德胡华文化中心二期工程项目新型肥料红狮肥料生产产品升级

一种基于Bi-gram和HMM的中文未登录词辨识方法

与本文相关的学术论文