汉语专利术语抽取及应用研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:csss2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语是专业领域中能概况主题内容的基本信息承载单元。术语自动抽取即从专门领域的文档集合中自动识别出能代表本领域的文本单元的集合,如词语、短语等。这项技术在自然语言处理领域被广泛研究,被应用于多个领域,如文本分类、句法分析、自然语言生成、语料库语言学研究、统计机器翻译,信息检索,自动问答系统等领域。下文中的术语抽取通指汉语术语抽取。为了较好的抽取出汉语专利术语,本文主要探讨在较少训练语料甚至无训练语料的情况下抽取汉语专利术语的方法,同时探讨用序列标注模型条件随机场抽取术语时的最佳条件,进行术语合成和增量迭代等工作,接着将开发完整的包含数据预处理,机器学习,结果分析以及开放测试的应用程序,最后将阐述抽取出的汉语专利术语在汉语专利语义检索中应用情况。本文的主要内容包括以下几个方面:(1)建立基于字角色标注的领域术语抽取模型。这个阶段主要说明整个术语抽取过程的步骤流程以及需要的工具和实验的方法等,主要是完成定义字角色和扩展特征序列等标注的基本工作,尤其是对术语合成规则界定为一个创新点。(2)进行实验结果分析,调节条件随机场参数以期获得最佳识别效果;实验误差分析,主要包括对召回的术语中未被标记为正确的术语进行了分析;术语合成实验分析,主要剔除重复和错误的术语后,按照合成规则进行合成、面向摘要的实验分析等。(3)开发术语抽取的完整的软件,包括前期预处理过程,机器学习过程,结果分析模块,合成规则的术语抽取验证模块,以及开放测试模块,便于更简易的进行实验,以及更直观观察实验结果,可供后续研究使用。开放测试模块主要为了检验该实验的效果以及不足之处,也是该部分的重点。同时还与张华平博士研发的NLPIR大数据搜索与挖掘共享平台(又名ICTCLAS2013)用相同的测试语料做简要对比。(4)阐明术语抽取在专利信息语义检索中的应用。为了说明专利术语的作用,本章以专利信息语义检索系统为例,简略介绍了专利检索系统,然后说明了术语在这些系统中发挥的作用。实验表明,以核心词汇库代替人工标引来弥补机器学习中训练语料不充分的问题,具有一定的可行性。运用条件随机场,结合语料特点,设置合理的试验参数,能较准确的抽取术语。但是与人工标引相比,也不可避免的存在着准确性和充分性的问题。虽然文章仍有不足之处,但是本文的方法及结论可为后续的术语自动抽取研究提供参考。
其他文献
近日,Brooktrout与CTl2宣布双方圆满完成了产品的互操作性测试,并为固网和移动运营商提供先进的IP消息业务。该业务采用了Brooktrout SnowShoreIP媒体服务器和CIP InTouch平台,
依据相关标准,并结合实际经验,论述了当前移动基站供电系统防雷中存在的主要问题.
目的了解昆明市部分不孕妇女解脲支原体、人型支原体感染状况及其药物敏感情况。方法对431例不孕妇女进行解脲支原体、人型支原体培养及其药物敏感性试验。结果①不孕妇女解
毫无疑问,在建国以后,庸俗社会学及其左倾教条主义思想逐渐地达到了登峰造极的地步,加上“行政命令”、“政策条文”、“长官意志”和一次又一次的“革命大批判”运动,对文艺的危
“2006中国无线技术大会”近日在北京召开。本次大会由信息产业部无线电管理局指导,人民邮电报社、中国通信学会无线电应用与管理专业委员会、信息产业部电信研究院、讯息展-
2004年12月29日,国际权成认证机构BSI(英国标准协会)在华为宣布:经过该机构资深专家的现场审核,华为技术有限公司职业健康与安全管理体系各方面实施效果均已达到OHSAS 18001:1999
梁建平的《厚土》系列有着很强的表现性.在人物造型上稚拙、浑厚、单纯.通过积墨、积色,表现了浑然的生命力度。
期刊
本文着重对兔毛纤维形态、结构及其性能的研究现状作综合报道。并结合对兔毛产品加工和产品质量的影响作粗浅分析。
日前,全球领先的无线通信测试设备和解决方案提供商——威尔泰克宣布,北电、西门子采用威尔泰克8301 Griffin快速测量接收器进行青藏铁路和胶济铁路的GSM-R网络建设.为它们提供