论文部分内容阅读
多词表达(MultiwordExpression,MWE)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现且往往缺乏标注信息,给分词任务和后续文本理解带来了巨大挑战。与此同时,网络文本的多词表达抽取对于社交网络的热点追踪和信息检索等任务都有着至关重要的作用。目前,多词表达的抽取方法研究已经有了一定的成果,但仍然存在很大的改进空间,主要的问题有:目前面向网络文本的多词表达抽取研究还很少;采用纯规则或纯统计的方法来抽取多词表达的效果往往不好;多词表达结构中词元关系的计算往往需要依赖人工制定的规则和模板,不适用于抽取包罗万象的网络文本中的多词表达。因此,本文面向网络文本的多词表达抽取研究,探讨如何结合规则和统计方法来抽取多词表达,以及如何减少人工制定规则的依赖,实现多词表达的自动抽取。本文对网络文本中汉语多词表达的结构特点和语言学特点进行了详尽的分析和归纳,在此基础上,设计了基于规则与统计相融合的多词表达抽取方法,且根据多词表达构成词的词性组合规律制定了正则表达式模板,并改进NC-value统计模型,将其与互信息(Mutual Information,MI)相结合(即MI/NC)来抽取多词表达。经过实验测试,在1万条微博语料上,基于规则与统计相融合的方法抽取多词表达的F值达到85.85%,相比较于基线系统,性能有了很大的提升。进一步,为了减少对人工规则的依赖及提升多词表达抽取的准确率,本文提出了一种基于双层策略的多词表达抽取方法。第一层次,我们利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,我们在第一层次获得的多词表达候选列表的基础上,利用支持向量机(Support Vector Machine,SVM)分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验验证,基于双层策略方法抽取多词表达的F值达到89.58%,相比较于基线系统和基于规则与统计相融合的抽取方法,性能有了进一步的提高。综上所述,本文面向网络文本,在融合基于规则和基于统计的多词表达抽取方面,在改进多词表达结构中词关系计算算法方面,在引入词向量来过滤多词表达候选列表方面,进行了一系列创新性的工作,实验结果表明,本文所提出的基于规则与统计相融合和基于双层策略方法都能实现网络文本中多词表达的有效抽取。此外,我们将多词表达抽取与分词任务相结合,实验结果表明,引入多词表达抽取结果后的分词效果也得到了有效的改善。