论文部分内容阅读
为了从航空领域语料中发现并获取专业术语定义,本文首先利用专业资料构建了一个61万字的航空领域专业语料库,并提出一种利用多层次语言学混合特征熵的特征选择策略.本文使用该专业语料库对比了采用混合特征熵特征选择策略的三种术语定义抽取方法,改进BRF(Balanced Random Forest)方法、朴素贝叶斯方法、SVM(Support Vector Machine)方法.结果表明采用了混合特征熵特征选择策略的改进BRF方法,能够获得71.2%的F1-measure成绩和75%的F2-measure成绩,超过了朴素贝叶斯方法和SVM方法.