面向科技文献的中文分词系统研究与实现

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:a4253272566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是将中文文本中的词语按照一定的规则进行切分的过程。由于中文语句中字与字之间没有任何明显的切分标记,计算机无法对词语进行自动识别,因此必须利用相关的方法对语句进行处理。  中文分词是自然语言处理中最基本也是最重要的一个环节,分词结果的好坏直接影响后续工作的质量。国内外研究人员在分词领域做了大量的研究工作,同时取得了一定的成绩,提出了很多分词方法,能够将分词方法与实际应用相结合,是分词发展的最终目的。本文分词系统面向对象为科技文献,根据实际需要本文的研究工作主要有:  首先,术语抽取。科技文献中含有大量的具有一定代表意义的词语,我们称之为术语。对科技文献进行分词,术语能否正确切分对分词的结果有很大的影响,但是由于术语其本身的特殊性,在分词过程中难以对其正确地切分。针对这种问题,本文利用互信息原理对领域内的术语进行抽取,将获取的术语添加到核心词典构成分词词典,为下一步的分词做准备。  其次,分词算法改进。中文信息中,长字词代表的信息量较大,科技文献中术语以长字词为主,为了能够最大限度的保证长字词的正确切分以及减少匹配过程中无效匹配的次数,本文依据长词优先的分词原则,在传统最大匹配的基础上对分词算法进行了改进,保证了对长字词的正确切分,通过比较每一个字的构词长度,动态获取最大匹配词长,减少了无效匹配的次数,提高了分词效率。  再次,词典构造和歧义词处理。结合改进的最大匹配分词算法,在双字哈希结构的基础上对分词词典的结构进行了改进和设计,提高了词语匹配的速度。利用改进的最大匹配算法,采用双向匹配的方法进行分词,若分词结果相同,则输出分词结果,否则,句子含有歧义字段,利用统计与规则的方法对其进行消歧处理,最终得到正确的分词结果。  最后,分词系统设计。基于文中所提的算法,设计并实现了中文分词系统(CWSS),通过和其他分词系统与方法进行比较,验证了 CWSS对科技文献的分词具有一定的优势,符合实际需要。
其他文献
浮动平台双光电系统,是指在高空飞艇、气球等浮动载体下方的悬吊平台上,安装两个可以独立进行方向控制的光电跟踪系统。该系统是天基双焦中继镜在大气层内的简化版本。这种系统
Turbo码于1993年由 C.Berrou提出,在低信噪比下具有接近 Shannon理论极限的优异译码性能,引起了人们极大的研究热情。随着通信系统朝着高速率数据传输的方向发展,数据传输速
摘要:本文从两个方面探究了合作学习在英语教学中的应用,旨在为我们的英语教学带来帮助。  关键词:合作学习;英语教学;教师;学生  中图分类号:G632.0 文献标识码:A 文章编号:1992-7711(2017)11-0066  一、合作学习的预期效果及应对的问题  1. 合理分组。合理分组是合作学习取得成功的前提。在实施过程中,可采用就近异质组合和以任务为中心的小组结合两种方式。就近异质组合就是
达氏鳇自然种群是生活于我国黑龙江及其流域的冷水性淡水鱼,属于鲟科鱼类,其个体大,抗病力强,性成熟晚,养殖目的主要是获取鱼子酱。目前,达氏鳇养殖群体已从寒冷的黑龙江南移
随着热点地区的增多以及多媒体应用的推动,无线通信系统向着宽带高速的方向演进。新一代无线通信网络高吞吐率的需求对媒体接入控制层(Media Access Control, MAC)和物理层(P
电磁环境的复杂化和信号形式的差异性,正越来越严重地影响到了雷达信号测量系统的信噪比和灵敏度,人们迫切地需要一种能满足现代通信要求的接收机。声光器件因其对激光束的精
低压电力线传输网络具有覆盖范围广、接入便利等特点,利用其可快速构建通信网络实现数据通信,无需重新布线。可见光通信技术具有成本低、架设快捷和无需频率许可等优点,是一
坐在最前面的年轻的穆罕默德·萨拉姆经常坐着这列运送铁矿石的货车穿越毛里塔尼亚撒哈拉大沙漠,从zouerat露天赤铁矿中心到努瓦迪布商业港。旅行是危险而费劲的,但自由的商
目的:探讨刺五加注射液和重组人促红细胞生成素(Recombinant Human Erythropoietin,rhEPO)对高氧诱发新生大鼠肺损伤的影响。方法:选用新生Wistar乳鼠120只,随机分为4组(每组n=30),空
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.