面向专利文献的中文分词技术的研究

被引量 : 1次 | 上传用户:qtedu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专利文献是记载和传递各类科技成果的信息载体,是世界上最大的技术信息源。如何充分地利用如此巨大的信息资源,使专利在科研和专利业务的诸多方面发挥重要作用,针对该问题,专利信息处理系统应运而生。在中文专利信息处理系统中,专利分词是一个重要的基础环节,专利检索及专利翻译等应用都需以专利自动分词作为基础。目前国内汉语自动分词的研究主要集中在新闻语料上,比较成熟且实用的分词系统针对新闻语料的分词效果很好,然而对专利语料的分词效果却不是很理想。本文针对专利文献自动分词的困难及专利文献的特点,提出了一种基于统计和规则相结合的分词方法。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,该方法在开放测试下取得了较好的结果,对未登录词的识别也有很好的效果。针对监督学习方法需要大规模同源训练语料,及通过调节窗口大小获取词的上下文信息的不足,本文将大规模语料中的高频稳定的词和切分文本的上下文信息作为辅助特征,引入到基于条件随机场的分词系统中,从而提出了一种将无监督分词信息融入条件随机场的分词方法。与当前主流分词方法在专利语料上的对比实验结果显示,该方法解决了训练语料不足的问题,并从统计上获得了更多关于词的边界信息,使分词的性能提升了大约7个百分点。在分析专利中术语构词特点的基础上,针对专利中词组型术语隐含的层次结构,本文对词组型术语的多层次切分进行了探索性研究。
其他文献
目的便携式纤维支气管镜法和听诊器法用于胸腔外科手术麻醉定位双腔气管插管的对比研究。方法现随机选取2017年1月~2018年5月在我院进行胸腔外科手术麻醉定位双腔气管插管的
中国财政支出的较大一部分用于生产建设,中国居民消费与政府生产性支出表现出稳健的正相关关系,这一事实与从标准的新古典和新凯恩斯模型得出的挤出效应截然不同。本文构建了
目的探讨健康信念理论结合中医康复护理在脑梗死恢复期患者中的应用效果。方法选取2015年8月-2016年10月在本院进行功能康复锻炼的脑梗死患者共85例。采用随机数字表法将患者
南京大学外国语学院德语系(以下简称南大德语系)从2006年9月开始正式采用《当代大学德语(Studienweg Deutsch)》(外研社)(以下简称《Studienweg》)作为本科生一年级的专业课教材,课程
多年冻土是指冻结状态持续三年以上的土层。我国东北地区的多年冻土主要集中在大、小兴安岭,属于古代冰川沉积残留物,目前处于退化阶段,具有低海拔、高纬度、不稳定的特点,修
<正> 关于减肥,以下四个小秘密是许多人不知道的: 第一,每一餐都要遵循相同的减肥原则,即热量的摄取量必须少于消耗量。 第二,节食减肥法主要有三种:控制食量;吃高蛋白、低碳
本论文为广州珠江黄埔大桥锚碇工程研制了一种超大掺量粉煤灰混凝土。对这种超大掺量粉煤灰混凝土进行了多方面的试验研究,着重研究了粉煤灰超大掺量对混凝土的耐久性方面和微
<正>哥伦比亚有温和的赤道气候,长日照,土壤肥沃,水资源丰富,劳资适度,还有美国、欧盟等重要消费市场,贸易条件优越,是花卉生产者的天堂。几十年来,哥伦比亚一直是世界上第二
目的:比较便携式纤维支气管镜法和听诊法用于胸腔外科手术麻醉定位双腔气管插管的效果。方法:选择连续入院ASAⅠ-Ⅲ级需行双腔气管插管的胸科择期手术患者,随机分为听诊(A)组和纤