基于文本流的中文新词识别技术研究与应用

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:jbwjbw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0技术的蓬勃发展与网络的普及,人们越来越积极发挥自我的存在价值,主动参与各个网络话题,因此造成大量新词涌现在人们的日常生活中。这些网络新词以较少的符号形象生动的表达更多的信息,是未来语言交际的需要,同时由于它的使用广泛、传播速度快等特点,已越来越被语言学界所重视,与此同时,也是中文信息处理领域不可避免的问题。新词识别技术是汉语自动分词、人机交互、在线翻译等各项领域的重要支撑技术。因此本文致力于对新词识别技术进行研究,识别包括网络新词与传统新词,提出有效的新词识别方法,并开发相应运行系统。本文的主要研究工作包括以下几个方面:(1)设计针对单字串模式的传统新词的识别方法,提出极大值方法,可以有效的识别出该模式下的传统新词。(2)针对后缀模式的传统新词,本文通过“归纳法”、“阈值法”两种方法的实验比较,提出采用归纳法识别该模式的传统新词。在基于网络新词与传统新词的区别,本文在取得的传统新词的基础上,对其出现的幅度进行跟踪,提取网络新词。(3)针对关于新词识别的算法研究,本文新建一套能够具体运行的系统,设计并实现针对五大新闻门户网站的采集方法,将采集的文本进行处理存储,作为实验语料,将本文中所设计到的方法具体实现。目前本文中提到的各种方法已被应用到本文开发的新词识别系统中,取得不错的结果。
其他文献
该文首先讨论了光栅扫描体制的技术特点及其在雷达显示终端的应用.然后详细阐明了一种高分辨率光栅扫描警戒雷达显示终端的硬件设计方案并着重介绍了实现过程中遇到的一些技
学位
新时期高中物理课堂教学取得了巨大的进步,但是在目前的物理课堂教学中依然存在一些问题,在一定程度上影响了课堂教学的有效性。本文对目前存在于物理课堂教学中的问题进行了分
走进新课改,适应新课程,充分发挥学生的主观能动性、创造性、主体性,让学生独立地参与课堂实践活动,合作学习,进而切实培养学生的自信心,才能提高学生的整体综合素质。
生物是一门知识涉及面广、容量特别大的学科,在学习生物的过程中,人们会接触到各种各样不同的生物。在初中阶段,如何采取切实可行的措施提高教学效率成为学校以及教师最为关注的
合成孔径雷达SAR在斜视模式下具有很高的机动灵活性,通过改变天线波束指向,可对侧前方目标预先成像,对侧后方目标再次成像,这对于现代条件下局部战争的战场侦察具有重要意义
学位
在"3+综合"考试中,与过去的单科考试相比,综合考试中对考生所掌握的基本知识的要求没有太大的变化,物理学科的力、电、光、热、原子物理五大部分的基本知识框架没有实质性的变化。
生物就是由生物学的知识体系构成的。现在人们已经认识到,除知识体系外,生物科学中含有更为重要的东西,那就是获得科学知识的途径和方法,本文作者结合多年的教学经验,从几个方面谈
近来在径向电流源的应用当中得到了很多经验,所谓的电偶极源,就是在瞬变电磁法和海洋可控源电磁法(Marine Controlled Source Electromagnetic)中作为一个发射机。电偶极源是
随着我国经济和互联网科技的高速发展,电子商务行业在国民生活和生产中所扮演的角色越来越重要,与此同时,随着人们金融理念的不断提升,对支付方式的需求也由纸质支付方式转变