基于大规模语料库的中文新词识别

被引量 : 0次 | 上传用户:liliqqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网对于信息传播的巨大推动作用,越来越多的新词出现在人们的生活之中。这些新词反映了词汇学的发展和演进的趋势,成为语言学关注的焦点,也是自然语言处理无法回避的一大挑战。新词的自动识别,在汉语词典编纂、信息抽取、汉语自动分词等多领域都具有重要意义。新词是指词法分析器使用的词典里没有收录的词。汉语自动分词面临的一个主要难题就是新词的自动识别。含有新词的文本经过分词后,大多被切分成碎片的形式。本文对Internet下载的新闻语料进行汉语分词和词性标注,然后进行串频统计,得到潜在新词。对于单字串模式的新词,本文提出了一种新的基于大规模语料库的新词识别方法,利用汉字与相邻的切分标注的共现频度,建立局部二元模型。该模型考察构成新词的汉子和上下文之间的关系,使用局部二元统计量来筛选新词。两个相邻汉字的互信息度量了它们之间的紧密程度,对于大于两字的单字串,我们引入平均互信息的概念,计算潜在新词的相邻汉字互信息的平均值,并将其应用到单字串模式的新词识别中。实验结果表明,使用局部二元模型的新词识别效果好于使用平均互信息,前者的F-值可达到79.05%,高于后者的71.37%,表明了局部二元模型的有效性。我们进行了将平均互信息和局部二元统计量结合起来使用的实验,F-值可达到79.94%。对于“双字词+单字”模式的新词,本文将其定义为后缀模式。首先使用人工归纳出的后缀集合,以及根据词表统计出作为三字词尾字的汉字集合,分别进行了实验,又将两个后缀集合合并起来,实验结果高于单独使用一种方法的效果。
其他文献
李可染墨法的形成,与五四新文化运动、美术革命崇尚科学的信念有着内在的逻辑联系。科学地观察、表现自然,是李可染墨法发生的起点。而对意境的追求,以及李可染的传统情结,使
国家的职能都是通过行政管理手段来实现的,而行政管理工作的具体执行人即是行政领导者,其处于行政管理的核心和主导位置,决定着国家行政职能的实现程度,同时还决定了行政管理
目的探讨恩替卡韦联合苦参素治疗HBe Ag阳性慢性乙肝患者的近期疗效。方法选取我院2011年1月~2013年1月间治疗的100例慢性乙肝患者作为观察对象,采用随机数字表法将入选的100
本文应用西方经济学中的有关产业理论,对香港电影产业的发展进行多维度的诠释与分析,力求完整而深刻地描绘出香港电影产业的流变过程,并揭示出香港电影的产业经验对内地电影
生物礁油气藏是一种典型的岩性油气藏,由于地质特点的多样性和复杂性,使得生物礁的勘探难度很大。在充分调研和技术开发的基础上,针对川东地区二叠系生物礁的地质特点和资料
唐代是中国古代乐舞艺术发展的极盛时期,繁花似锦的宫廷音乐舞蹈,代表了当时乐舞艺术所达到的最高水平。唐代也是我国古代器乐艺术发展的颠峰时期。宫廷器乐规模宏大,乐器、
从上个世纪80年代开始,大庆油田对江桥及其周边地区进行过多次地震勘探,认为该区受基底形态控制,上覆的T1、T2构造层构造简单,断层不发育,整体上为东倾的单斜,构造线大致近南
建筑业是我国国民经济的支柱产业。随着近年来我国工业化、城市化、现代化步伐的不断加快,对建筑业现代化发展的需求不断提升,建筑物生命周期过程中所引发的资源浪费、环境污