论文部分内容阅读
领域概念是一种领域知识的表现形式,它是人类在认知过程中对于特定事物的抽象描述。领域概念也反映了所属领域的发展变化。领域概念抽取主要研究如何利用计算机实现自动或者半自动地从领域素材中获取领域概念,相关成果在信息检索、文本分类、机器翻译等自然语言处理领域得到了广泛的应用。领域概念的构词形式分为单词型和复合型两类。复合型领域概念由两个及两个以上词语组成。在领域概念中,复合型领域概念所占比例较大。文献调查发现,复合型领域概念抽取方法研究成果较为丰富,相关方法一般综合了统计方法和语言学规则,而单词型领域概念的抽取的研究成果比较少见。现有的单词型领域概念抽取方法主要从领域性角度出发,首先定义一些统计值来量化计算领域相关度,然后按照领域相关度值对候选项排序,最后设置阈值进行筛选。相关方法存在特征选择较为单一,噪音排除能力不强和特征权重和阈值的设定缺乏科学依据且容易受到主观因素的影响等问题,导致现有方法的准确率需要进一步提高。单词型领域概念是复合型领域概念的一个重要组成部分,提高前者的抽取效果对于后者也是大有裨益的。基于以上考虑,本文以单词型领域概念抽取作为本文的研究对象。机器学习自诞生以来已经在包括自然语言处理的众多领域获得成功应用,人工神经网络(Artificial Neural Networks,ANN)是一种成熟的机器学习方法,模拟了人脑神经网络的结构和功能,具备学习性、容错性和自适应性等优点,适合用来对领域概念的特征数据和类别标记之间复杂的映射关系进行建模。Deep Learning作为一种新兴的机器学习方法,主要解决包含多个隐含层的人工神经网络的学习问题。这种深度神经网络模型在模拟人脑方面更进一步,展现出了更为强大的学习能力。针对现有研究的不足,利用人工神经网络和Deep Learning解决复杂模式分类问题的优势,本文通过构造多隐含层的深度神经网络模型,提高单词型领域概念的抽取效果。本文的创新点包括:1)本文提出了基于单词型领域概念的特征抽取方法。根据单词型领域概念在领域文档集和非领域文档集中的分布特点,选取词频、文档频率、反文档频率、词语长度、词频方差和领域一致度作为特征,提高了特征向量的区分度。2)本文提出了利用神经网络对单词型领域概念建立模型的方法。有效表示单词型领域概念多维度的特征向量和类别标记之间的复杂映射关系,有效防止噪音对于抽取算法的影响,避免人工设置特征权重和阈值。3)本文提出了基于Deep Learning的单词型领域概念抽取算法,构建多隐含层的深度神经网络模型,充分挖掘出原始特征之间的组合关系。首先利用深度信念网(Deep Belief Nets,DBN)无监督地学习出更加合理的初始网络参数,降低网络陷入局部最优值的风险,然后采用反向传播算法有监督地微调完成模型训练。本文利用搜狗实验室提供的文本分类语料库进行实验,选取军事领域的100篇文本作为训练集,30篇作为测试集。实验结果表明,本文的方法有效可行,深度神经网络模型取得了74.27%的准确率、51.80%的召回率和61.03%的F值。在相同的数据集上,现有的KNN模型和SVM模型取得的F值分别为52.63%和58.50%。深度神经网络模型与浅层模型相比获得了较高的F值,可以达到准确率和召回率的相对平衡,整体效果更好。