中文新词识别研究

被引量 : 0次 | 上传用户:zx154028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,越来越多的新词出现在人们的日常生活中,新词虽然丰富了人们的日常表达,却给中文信息处理带来了挑战。由于新词的存在,词法分析器在分词时常常出现过多的“词碎片”,这在很大程度上影响了分词的精度。目前针对命名实体等专有新词的研究已经比较成熟,而对于普通新词的识别尚在不断探索中。本文采用统计与规则相结合的方法识别新词。针对新词不同的构词模式特点,利用语言学的知识把新词识别问题分类细化,将单字串模式的新词和后缀串模式的新词作为本文的主要识别对象。首先从因特网上下载大规模的新闻语料,经过删除HTML标签等预处理操作后得到纯文本语料;在对语料进行分词和词性标注的基础上,依据分词碎片的词性和停用词表等规则进行重复串的查找,得到单字串模式的候选新词和后缀串模式的候选新词。对于单字串模式的候选新词,在使用内部词概率模型的基础上,通过分析候选新词的内部紧密结合度以及上下文环境依赖程度等特征信息,采用平均互信息和左右邻接信息熵相结合的方法进行识别;对于后缀模式的候选新词,通过大规模语料训练得到的噪声尾词典进行噪声串的过滤得到新词。在使用内部词概率模型的基础上对左右信息熵的方法和平均互信息的方法进行比较。实验结果表明,左右信息熵的方法效果优于平均互信息的方法。前者的F-值为49.81%,高于后者的F-值46.69%。在使用内部词概率模型的基础上,将平均互信息和左右信息熵结合起来识别新词的准确率和召回率分别为70.08%和77.54%,这表明平均互信息和左右信息熵在识别新词上具有一定的互补性。
其他文献
运用专家经验评估法确定典型保卫目标的抗毁性指数,结合空袭兵器标准化,通过计算确定防空作战中被毁目标的面积与战役总保卫目标面积,由此确定保卫目标的安全率。以海军要地
目的探讨孕中期孕妇外周血胎儿游离DNA检测在无创性产前诊断胎儿染色体非整倍体中的应用。方法 2012年至2013年收集中孕期单胎孕妇854例,孕周12~24w,检测的指征为高龄、唐氏
设施选址问题是一类被广泛研究和应用的优化问题,在互联网、分布式计算、数据挖掘和运筹规划等领域有广泛应用,所以对设施选址问题各种形式的研究有着重要的实际意义。设施选
随着电力电子技术的发展,很多设备都要求稳定的交流电源供电,但是交流供电系统存在电力欠缺、电网不尽合理等问题。这一切都会导致用电设备出现工作不正常、精度下降等问题,
肖邦钢琴练习曲是钢琴文献库中的瑰宝,是日常钢琴教学当中的常用曲目,由此改编的《12首长笛练习曲》也越来越多地受到长笛教师与学生的青睐。文章把长笛改编版与原作版作了详
<正>在国家有关部委和中国建材联合会的关心支持下,中国砖瓦行业在我国"十二五"发展中前期,按照《砖瓦工业"十二五"发展规划》制定的规划要求,主要呈现以下发展特点:1行业发
在中国近代史上,梁启超(1873-1929)不仅是一位声誉卓著的思想家、政治活动家、学者,也是中国近代史上一位重要的翻译评论家,19世纪末20世纪初一直活跃在中国翻译的舞台上。梁
农业经济学是随着农业经济的发展而新兴的一门学科,而我国农业经济学是在农村经济的衰败以及畸形的商品经济发展时代背景下,作为挽救农村经济的方式之一而引入我国的,并在20
先介绍的是人体颈部的结构特点,进而阐述衣领结构与人体颈部的关系。从衣领的结构变化原理,推出立领的结构变化原理,即从立领的基本结构来推出不同形式立领的结构设计。分别
  介绍了我国砖瓦工业发展现状,分析了我国砖瓦工业发展环境。提出了砖瓦工业发展的指导思想、基本原则和发展目标。指出促进砖瓦工业健康发展的保障措施。