论文部分内容阅读
术语是专业领域中能概况主题内容的基本信息承载单元。术语自动抽取即从专门领域的文档集合中自动识别出能代表本领域的文本单元的集合,如词语、短语等。这项技术在自然语言处理领域被广泛研究,被应用于多个领域,如文本分类、句法分析、自然语言生成、语料库语言学研究、统计机器翻译,信息检索,自动问答系统等领域。下文中的术语抽取通指汉语术语抽取。为了较好的抽取出汉语专利术语,本文主要探讨在较少训练语料甚至无训练语料的情况下抽取汉语专利术语的方法,同时探讨用序列标注模型条件随机场抽取术语时的最佳条件,进行术语合成和增量迭代等工作,接着将开发完整的包含数据预处理,机器学习,结果分析以及开放测试的应用程序,最后将阐述抽取出的汉语专利术语在汉语专利语义检索中应用情况。本文的主要内容包括以下几个方面:(1)建立基于字角色标注的领域术语抽取模型。这个阶段主要说明整个术语抽取过程的步骤流程以及需要的工具和实验的方法等,主要是完成定义字角色和扩展特征序列等标注的基本工作,尤其是对术语合成规则界定为一个创新点。(2)进行实验结果分析,调节条件随机场参数以期获得最佳识别效果;实验误差分析,主要包括对召回的术语中未被标记为正确的术语进行了分析;术语合成实验分析,主要剔除重复和错误的术语后,按照合成规则进行合成、面向摘要的实验分析等。(3)开发术语抽取的完整的软件,包括前期预处理过程,机器学习过程,结果分析模块,合成规则的术语抽取验证模块,以及开放测试模块,便于更简易的进行实验,以及更直观观察实验结果,可供后续研究使用。开放测试模块主要为了检验该实验的效果以及不足之处,也是该部分的重点。同时还与张华平博士研发的NLPIR大数据搜索与挖掘共享平台(又名ICTCLAS2013)用相同的测试语料做简要对比。(4)阐明术语抽取在专利信息语义检索中的应用。为了说明专利术语的作用,本章以专利信息语义检索系统为例,简略介绍了专利检索系统,然后说明了术语在这些系统中发挥的作用。实验表明,以核心词汇库代替人工标引来弥补机器学习中训练语料不充分的问题,具有一定的可行性。运用条件随机场,结合语料特点,设置合理的试验参数,能较准确的抽取术语。但是与人工标引相比,也不可避免的存在着准确性和充分性的问题。虽然文章仍有不足之处,但是本文的方法及结论可为后续的术语自动抽取研究提供参考。