面向航天领域的中文分词算法研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:baoyw00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自上世纪六十年代以来,我国航天事业飞速发展,积累了海量的航天信息资源。在对航天信息进行检索和分析时,传统的人工方式费时费力,已经无法胜任航天信息检索任务,必须依靠搜索引擎技术。中文分词作为搜索引擎技术的关键性步骤,分词的效果会极大的影响检索的准确性。我国的中文分词技术虽然位居世界前列,但是大部分中文分词的研究集中在通用领域,很少有面向航天领域的中文分词研究,因此,一个性能优良的航天领域中文分词算法对于航天信息检索任务意义重大。本文主要是面向航天领域的中文分词算法研究,首先研究了目前常见的三种中文分词算法,分析并总结了传统中文分词方法存在的问题,针对航天领域术语的特点,在传统中文分词算法的基础上提出了多策略融合中文分词算法。本文提出的多策略融合中文分词算法由三个模块组成,分别是基于词典的初分词模块、歧义消解模块以及航天领域术语抽取模块。在基于词典的初分词模块,针对最大匹配算法存在的不足,本文提出了一种改进的最大匹配算法(DF-MM),同时基于中文词语二字词居多的特点,设计了一种带词长词频的双哈希词典构造机制。在歧义消解模块,为了保证歧义消解的准确性和高效性,提出了一种统计和规则相结合的歧义消解方法:待切分语料经过正向最大匹配算法和逆向最大匹配算法切分后,如果切分出的词语数量不一致,根据“最少切分”原则,保留词数少的切分形式作为最终的歧义消解结果,如果切分出的词语数量相同,则采用Bi-Gram模型,分别计算两种切分形式的概率,保留概率大的切分形式作为最终的歧义消解结果。在航天领域术语抽取模块,采用目前流行的条件随机场模型,将航天领域术语抽取任务转化为序列标注问题,通过总结航天领域术语的特点,采用5-tag标记法、提取5种特征建立特征模板来完成航天领域术语抽取任务。多策略融合中文分词算法结合了几种传统中文分词算法的优势,其分词主模块选取基于词典的中文分词方法,保证了算法整体的高效性,为了克服中文分词领域的歧义问题和未登录词问题,添加了歧义消解模块和术语抽取模块。通过实验验证,本文提出的多策略融合中文分词算法以及各个子模块的性能相比于传统的方法均有所提升。最后,将多策略融合中文分词算法应用到“航天智库检索系统”中,提高了系统分词的准确性,为用户提供更加精确的检索结果。
其他文献
本研究以中药“何首乌”为对象,从本草学的角度,通过查阅古代相关文献,对何首乌的名称、原植物、炮制、性味归经、功效等方面进行梳理与考证研究,并对何首乌现代研究进行综述
二陈汤出自于宋代《太平惠民和剂局方》,具有燥湿化痰,理气和中之功效,临床上多应用于内科,主治湿痰证,应用于眼科则多在原方基础上进行加减化裁。笔者查阅近30年文献,对经方
目的:本研究旨在通过收集冠状动脉钙化病变患者的一般资料、冠状动脉造影及冠状动脉血管内超声影像,总结分析冠状动脉钙化的临床及影像学特点,推导冠状动脉钙化的危险因素,为提高对冠状动脉钙化的临床及影像学认识提供帮助。方法:连续入选2016年1月-2018年12月于吉林大学第一医院心血管内科诊断为稳定型心绞痛或不稳定型心绞痛,行冠脉造影术明确冠状动脉主要分支中一处狭窄程度≥50%且行血管内超声检查的患者2
概括了固体表面的润湿理论,分析讨论了超疏水表面的制备技术,尤其是近几年较新的制备方法,同时回顾了超疏水表面技术在现实生活中的实际应用。此外,简单介绍了上述方法制备的具有
历史成本原则是传统会计理论的一大基石,而在现代会计环境下,会计计量中心从成本计量到价值计量的变革,必然引起会计观念的彻底变革。传统会计理论的支柱,包括权债发生制、可靠性
股利政策是上市公司财务决策的重要一环,不仅关系着利润分配决策,同时与其生存和发展息息相关。股利政策既是公司股利分配活动的指导,又与公司投资、融资决策联系紧密,股东的
每个星期的第一天是一周的始,大多数职场男需要从休息的松中回到工作的状态,正式的着打扮会给你增加足够多的印象分不管是应聘工作.还是接待客户这套装扮都是你不错的选择。暗棕
为进一步提升我司安全行车和优质服务水平,为生产经营和各项工作提供参考,切实做好下一步明年的工作,近期,集团公司召开了“安全行车、文明服务、增收节支”百日会战劳动竞赛交流
历朝历代修建了许多古都,既是我们追溯历史、研究史料的重要依据,也是璀璨的中华文化的一部分。木结构是我国古建筑普遍采用的建筑形式,木材这种建筑材料,由于其本身在生长过
框架眼镜因使用方便、安全、适用范围广、成本低等优势一直以来在屈光不正的矫治方面占据着不可缺少的市场份额。其矫正原理是通过镜片屈光力与非正视眼的屈光系统形成一个新