基于互信息改进算法的新词发现对中文分词系统改进

来源 :北京大学学报(自然科学版) | 被引量 : 0次 | 上传用户:rwsonny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的参数为10时,结果精度达到97.39%,比PMI方法提高28.79%,实验结果表明,该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS中,基于10 KB的百度贴吧语料实验,比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%,3.73%和5.91%。实验表明,通过进行新词发现能有效改善分词系统对网络文本的处理效果。
其他文献
目的探讨自体毛发移植在治疗毛发(头皮、眉毛、胡须)缺失的效果。方法对32例毛发缺失患者采用自体毛发移植方法进行治疗。术前进行详细谈话,男性型秃发选择供皮区在枕骨粗隆
会议
电路系统电能计量装置是电力企业经营的主要测量工具,电力企业的社会效益和经济效益都直接受到了该装置计量准确性的影响,同时,其计量结果是否准确问题也是企业管理部门最为
本课题以目前二炮现有的带有简单突防装置的常规导弹弹头为研究目标,结合它们的外型、空间分布、弹道特性开展研究工作,为开展对带有简单突防装置的常规导弹弹头的目标识别奠定
根据“新奥法”施工的需要,通过实验和前期开挖经验,得出科学合理的爆破设计参数,形成了小断面引水隧洞开挖的光面爆破施工方案。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
进水池设计要求是为水泵提供较好的进水流态,进水池内流态的好坏主要取决于进水池结构本身及其进水条件.应用计算流体动力学方法对无偏流及偏流进水工况下蜗形进水池内的三维流
分析了利用活动目录架构公共计算机机房的方法和优点,设计开发了一套基于活动目录的自助式、规范化的机房管理系统.使用该系统能对分散的机房进行集中式管理,能实现机房管理
服务业发展水平成为衡量当前经济发展水平的一个重要指标,服务业占比尤其是现代服务业占比越高说明一个地区经济越发达。成都作为西部最有发展潜力的城市,服务业总体发展水平
早读是学好语文必不可少的一个环节。学生能养成良好的早读习惯,对培养语感,增加语言积累,提升语文素养都有着重要作用。然而,天天一成不变地读,学生渐渐失去了兴趣。玩转早