汉语专利术语抽取及应用研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：csss2

【摘要】

：

术语是专业领域中能概况主题内容的基本信息承载单元。术语自动抽取即从专门领域的文档集合中自动识别出能代表本领域的文本单元的集合,如词语、短语等。这项技术在自然语言

【作者】

：

王密平

【出处】

：

南京大学

【发表日期】

：

2017年期

【关键词】

：

术语抽取专利术语条件随机场术语合成

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

术语是专业领域中能概况主题内容的基本信息承载单元。术语自动抽取即从专门领域的文档集合中自动识别出能代表本领域的文本单元的集合,如词语、短语等。这项技术在自然语言处理领域被广泛研究,被应用于多个领域,如文本分类、句法分析、自然语言生成、语料库语言学研究、统计机器翻译,信息检索,自动问答系统等领域。下文中的术语抽取通指汉语术语抽取。为了较好的抽取出汉语专利术语,本文主要探讨在较少训练语料甚至无训练语料的情况下抽取汉语专利术语的方法,同时探讨用序列标注模型条件随机场抽取术语时的最佳条件,进行术语合成和增量迭代等工作,接着将开发完整的包含数据预处理,机器学习,结果分析以及开放测试的应用程序,最后将阐述抽取出的汉语专利术语在汉语专利语义检索中应用情况。本文的主要内容包括以下几个方面:(1)建立基于字角色标注的领域术语抽取模型。这个阶段主要说明整个术语抽取过程的步骤流程以及需要的工具和实验的方法等,主要是完成定义字角色和扩展特征序列等标注的基本工作,尤其是对术语合成规则界定为一个创新点。(2)进行实验结果分析,调节条件随机场参数以期获得最佳识别效果;实验误差分析,主要包括对召回的术语中未被标记为正确的术语进行了分析;术语合成实验分析,主要剔除重复和错误的术语后,按照合成规则进行合成、面向摘要的实验分析等。(3)开发术语抽取的完整的软件,包括前期预处理过程,机器学习过程,结果分析模块,合成规则的术语抽取验证模块,以及开放测试模块,便于更简易的进行实验,以及更直观观察实验结果,可供后续研究使用。开放测试模块主要为了检验该实验的效果以及不足之处,也是该部分的重点。同时还与张华平博士研发的NLPIR大数据搜索与挖掘共享平台(又名ICTCLAS2013)用相同的测试语料做简要对比。(4)阐明术语抽取在专利信息语义检索中的应用。为了说明专利术语的作用,本章以专利信息语义检索系统为例,简略介绍了专利检索系统,然后说明了术语在这些系统中发挥的作用。实验表明,以核心词汇库代替人工标引来弥补机器学习中训练语料不充分的问题,具有一定的可行性。运用条件随机场,结合语料特点,设置合理的试验参数,能较准确的抽取术语。但是与人工标引相比,也不可避免的存在着准确性和充分性的问题。虽然文章仍有不足之处,但是本文的方法及结论可为后续的术语自动抽取研究提供参考。

其他文献

Brooktrout、CTI2提供下一代IP业务

近日，Brooktrout与CTl2宣布双方圆满完成了产品的互操作性测试，并为固网和移动运营商提供先进的IP消息业务。该业务采用了Brooktrout SnowShoreIP媒体服务器和CIP InTouch平台，

期刊

IP业务移动运营商互操作性测试媒体服务器VoIP业务架构CIP可扩展

移动基站供电系统防雷的主要问题

依据相关标准,并结合实际经验,论述了当前移动基站供电系统防雷中存在的主要问题.

期刊

移动基站供电系统防雷接地电涌保护器BTS Power supply system Lightning proof Earthing SPD

不孕妇女生殖道支原体感染情况及药敏分析

目的了解昆明市部分不孕妇女解脲支原体、人型支原体感染状况及其药物敏感情况。方法对431例不孕妇女进行解脲支原体、人型支原体培养及其药物敏感性试验。结果①不孕妇女解

期刊