基于上下文感知的中文新词识别技术研究

被引量 : 0次 | 上传用户:cuthberthirsch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言作为社会的晴雨表,生动而真实地记录了人类文明进步的历程。社会的不断进步,网络的飞速发展,以及新鲜事物的不断涌现,为新词的出现垫定了坚实的基础。新词大多反映新事物以及社会中的新现象,也折射人们思想观念的变化历程。新词的出现,更好地促进了词汇系统的丰富和发展,带有鲜明的时代烙印;也使人们的交流更加方便、生动和形象;同时却给中文信息处理中的基础技术工作——自动分词带来了困难,如何有效地识别这些新词,已经成为中文自动分词的一个瓶颈。以印欧语言为代表的一些以字母符号为基准的语言,词与词之间有空格等天然的分界,而中文却没有这样的分界符,且其中的每个汉字都具有很强的构词能力,即任何几个相邻的汉字序列都有成词的可能性,这也是中文新词自动识别最主要的困难。本文在分析新词的产生方式、特征以及分布规律的基础之上,提出了一种基于上下文感知的新词识别算法。为了保证语料的时效性,本文首先采用网络蜘蛛来获取网络文本内容作为语料库的来源。根据Web网页的结构特征,以DOM树的形式存放由网络蜘蛛获取的网页,进而依据标签来提取文本内容,构建语料库。其次,分析现有新词识别方法的特点,找出其优点和劣势,结合新词在语料中的数量分布以及字长等特征,采用N元模型(N-Gram)的思想,并对其进行改进,获得重复率高的候选词串。再将局部匹配预测(PPM)的思想,运用到新词的识别中,对候选的词串建立上下文预测模型,根据该预测模型对新词作进一步地识别。然后,分析当前替换算法的特点,采用LRU算法对词库进行更新,从而丰富和发展了词汇系统,也保证了词库的时效性。最后,根据上下文感知的新词识别算法的思想,设计实验方案,搭建实验环境,对本文提出的新词识别算法的性能进行验证,结果表明本文的算法是有效的。
其他文献
目的探讨静注免疫球蛋白治疗重症病毒性脑炎的疗效。方法将68例重症病毒性脑炎患者随机分为治疗组32例和对照组36例。治疗组在常规综合治疗基础上采用大剂量静注免疫球蛋白治
目的评价大剂量丙种球蛋白联合甲基强的松龙治疗急性吉兰-巴雷综合征的临床疗效及安全性。方法选择我院收治的44例急性吉兰-巴雷综合征患者,随机分为A、B组各22例,A组给予维
目的探讨阿昔洛韦联合纳洛酮治疗病毒性脑炎的临床疗效。方法将符合标准的124例病毒性脑炎患儿随机分成观察组和对照组各62例,对照组在常规治疗基础上单用阿昔洛韦静滴,观察
目的研究脑卒中患者并发肺部感染的危险因素及预后。方法选取256例老年脑卒中患者中56例并发肺部感染,对相关的危险因素进行分析。结果老年脑卒中并发肺部感染的危险因素较多
目的探讨糖皮质激素治疗对单纯疱疹病毒性脑炎疗效及预后的影响。方法选取2008-07—2013-07于我院临床确诊为单纯疱疹病毒性脑炎的62例患者,在常规综合治疗的基础上,根据是否
吴维城教授针对男性精液质量的异常,倡导中医辨证与西医辨病结合治疗,重视微观辨证,根据精液化验的各项指标,进行化裁,主张循序渐进,各有侧重,先通过壮水制火、滋阴化浊或清
20世纪80年代以前的车寨通婚圈,呈现出内卷化的结构性态势,"同类婚"占绝大多数,其通婚范围既不与"市场圈"同构,亦不与"祭祀圈"完全重合,表现出与自给自足经济密切勾连的特点,
周边地区是紧邻中国的地理空间,是维护国家安全、捍卫国家主权独立和领土完整的主战场,也是我国发挥国际作用的主要场所。周边安全直接关系到我国的国家安全与稳定、经济政治的
简要介绍了锁相放大器的基本组成 ,分析了锁相放大器实现微弱信号检测的原理 ,提出了一种利用锁相放大器在线检测生物发酵过程菌体浓度的新方法 ,并且实验验证了该检测方法的
中国城市机动化和郊区化进程不断深入,传统商业区正迎来"提档升级"的挑战和机遇。以重庆市解放碑商圈为例,采用PLPS、问卷调查以及商户座谈的方法收集现状数据,据此对商圈步