论文部分内容阅读
针对专利中缺少技术关键词的问题,在对主要的术语抽取方法研究的基础上,引入C-value方法,修改了术语构词规则和术语度(termhood)计算公式,用PC-value值测量一个词语的术语度,提出了专利技术术语抽取的流程模型,实现了从专利中抽取技术术语。该模型分为四个阶段:①分词和词性标注;②运用语言学规则取得可能术语列表;③计算词语的术语度值,取得候选术语列表;④领域专家评估并确定术语。实验结果证明,提出的方法能很好地抽取中文专利技术术语,在长术语的抽取和抽取精度上比C-value方法更具有优势。