论文部分内容阅读
为了从航空民航领域的专业语料中获取所有的专业术语定义,本文提出了一种经过改进的不平衡数据分类方法来进行术语定义抽取。本文利用实例距离分布信息改进了过采样方法,将其与随机欠采样方法结合用以建立平衡训练语料,并使用BRF方法来获得C4.5决策树的聚合分类结果。该方法获得了最好65%的Fl-measure成绩和78%的F2-measure成绩。同时本文也分析了特征选择方法对单颗决策树分类结果以及聚合结果的影响。