中文新词自动检测与识别方法的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：now3th

【摘要】

：

中文自动分词是汉语自然语言处理领域一项重要的基础性研究工作，而随着新词的不断出现，中文分词结果中出现过多的“散串”，影响了分词的准确率。因此，新词发现已经成为中文自动分

【作者】

：

许敏

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2007年期

【关键词】

：

新词检测新词识别条件随机场置信度词频中文自动分词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文自动分词是汉语自然语言处理领域一项重要的基础性研究工作，而随着新词的不断出现，中文分词结果中出现过多的“散串”，影响了分词的准确率。因此，新词发现已经成为中文自动分词的一个难点和瓶颈问题。另外，新词发现也是信息检索和机器翻译等领域的关注之点。本文将新词发现问题分成新词检测和识别两个子问题。新词检测模块采用了两种新词检测方法，一种是基于条件随机场(Conditional Random Fields，CRF)将新词检测与自动分词相结合，另一种是基于PAT(Patrical Algorithm to RetrieveInformation Coded in Alphanumeric，PATRICIA)数组提取重复字串，本文利用这两种方法提取候选新词；新词识别则被定义为一个二元分类问题，特征采用了新词检测过程中得到的局部特征即分词置信度以及词频、词语连接测度(SymmetricConditional Probability and Context Dependency，SCPCD)等全局特征，采用支持向量机(Support Vector Machine，SVM)作为分类器，对候选新词进行分类；最后将两个结果加以融合。实验证明该方法适用于从大规模语料库中自动高效地发现新词。

其他文献

HIFU治疗中的超声图像分割算法研究

高强度聚焦超声(HIFU)技术作为一种无侵害的、安全、有效的肿瘤治疗手段，近年来取得了快速的发展，当前HIFU设备对多种恶性肿瘤的治疗以达到临床应用阶段。在HIFU设备中，通常利用

学位

高强度聚焦超声超声图像分割图像增强马尔科夫随机场小波变换肿瘤治疗

黄孢原毛平革菌胞外低分子物质在木素降解过程中作用的研究

木素是自然界中含量最丰富的可再生性有机资源之一，其生物降解构成自然界碳素循环的限速步骤。真菌中的白腐菌类具有完整的木素降解体系，能将木素彻底氧化性降解为CO和HO。黄孢

学位

木素降解行为白腐菌类电子传递链过氧化物酶锰过氧化物酶纤维二糖脱氢酶黄孢原毛平革菌

《中国—东盟年鉴·2015》出版发行

为服务中国—东盟自由贸易区建设和中国—东盟博览会在南宁举办,满足社会各界及海内外人士了解中国和东盟各国有关资讯的需要,由广西社会科学院、广西社会科学界联合会主办,

期刊

广西社会科学院东盟自由贸易区东南亚国家联盟海内外人士出版发行东南亚研究国内权威邮费必备工具区域合作

基于DVI接口的LED异构显示系统联机控制器设计

发光LED是当前新型的发光源，比传统光源(白炽灯和荧光灯)节能50％～80％。城市景观照明及室内外装饰照明灯具必将逐步被节能、环保、寿命长、可靠性高及可实现全彩变化的LED灯具所取

学位

像素异构映射像素异构映射数字视频接口数字视频接口以太网以太网灯光装饰灯光装饰联机控制器联机控制器异构显示系统异构显示系统数字显示接口数字显示接口

分布式星载合成孔径雷达成像技术研究

方位分辨率与测绘带宽是合成孔径雷达(SyntheticApertureRadar，SAR)最重要的性能指标。常规SAR特别是常规星载SAR，其方位分辨率与测绘带宽指标不能同时改善。为了从体制上解决

学位

星载合成孔径雷达雷达成像宽测绘带成像多普勒模糊数字波束形成稀疏孔径

一种基于小波变换的图像压缩方法

现代图像通信的要求是将图像信息清晰、正确的传送到目的端，而图像信息是高维信息，内容复杂，数据量大，如果直接将图像信号进行传输，由于带宽有限，可能造成图像失真，并且传输速度低。

学位

小波变换图像压缩最优截断嵌入式编码映射编码

锁阳多糖成分及其药理活性的研究

本文对锁阳多糖成分及其药理活性进行了研究。文章采用腹腔两次注射STZ(150+40)mg/kg体重的方法制备糖尿病小鼠模型，然后用浓度为高(200mg/(kg·bw))、中(150mg/(kg·bw))、低

学位

锁阳多糖药理活性糖尿病防治

多资源服务器协同环境下的HTTP流量分析

数年以前,基于HTTP的网络业务由若干服务提供商以中央集中的方式提供,鲜有分布式服务器的存在。通常的情况是,单一服务器提供独有的网络服务,并且固定在某个IP地址上。现如今

学位

HTTP流量分析网络流量海量数据分布式计算

基于能量有效的超宽带多跳路由算法的研究与仿真

当无线网络的解决方案在企业和公共场合接入的市场上取得一定进展时，家庭网络市场仍没有找到一种合适的无线解决方案。家庭网络市场具有一定的特殊性，它需要同时满足高数据传输

学位

超宽带无线技术超宽带无线技术多跳路由算法多跳路由算法节点预测节点预测能量有效能量有效仿真分析仿真分析

华北高产粮区农业水、氮调控途径与管理政策研究——以山东省桓台县为例

本文针对华北高产粮区农业水、氮过度投入换取食物高产和农业经济增长的不可持续发展问题，建立了农业水、氮利用的生态学调控途径与管理政策的分析方法。以我国北方第一个吨粮

学位

农业生态水氮调控可持续发展

中文新词自动检测与识别方法的研究与实现

与本文相关的学术论文