论文部分内容阅读
文本分析和表示是自然语言处理相关任务中不可或缺的重要步骤,其目的在于提取文本中与任务相关的有用信息。语义信息在自然语言处理中是非常重要的信息,但是传统的分析和表示方法都很少考虑到文本中的语义信息。随着神经网络的发展,基于深度学习的自然语言处理技术得到了广泛的运用,并且在很多任务上都取得了优于传统方法的效果,这也主要得益于神经网络能够更好的利用文本的语义信息。但是,因为神经网络在使用中存在的一些限制,现实中可能会遇到不能直接使用神经网络的情况。所以,怎样基于语义信息分析文本仍然是一个值得研究的问题。在自然语言处理中,文本长短不一,如果对所有的文本都采用相同的分析方法是不合理的。本文对长文本和短文本中如何基于语义进行文本分析和表示分别进行了研究,并结合具体的文本分类任务和英文论文标题缩写词生成任务探索有效的分析和表示方法,探索如何才能有效的利用文本中的语义信息。并且调研了当前的一些分析方法,针对这些方法中的不足之处做出了改进。在长文本和短文本的分析中,现有的分析表示方法还是主要关注于词法层面的分析,对语义信息的利用略显不足。在长文本相关任务,比如文本分类中,当前流行的向量空间模型实际是在提取词频和文档频率相关的信息,忽视了词序、词义等语义相关的信息。在短文本相关任务,比如英文论文标题缩写词生成任务中,当前的做法也是基于规则或者是把它看成一个序列化标注的问题,没有在文本分析过程中考虑语义相关的信息。本文在文本分析和表示的过程中显式的引入了文本中的词语的语义信息,用于提升文本分析和表示的效果,并且在分析的过程中引入长短文本中相关的结构信息,用于提升分析过程中对语义信息利用的效果。针对上述提到的问题,本文在长文本和短文本上探索并提出了有效的基于语义的文本分析和表示方法,具体的工作如下:1.对于长文本相关的任务文本分类,本文对文本表示的方法做出了一些改进,引入了多示例学习的理论来减少噪声对文本分类效果的影响。与以前的文本表示方法不同,本文将文本按照一定的规则划分为多个片段,然后将一个文档表示成由多个特征向量组成的包。在将一个文档划分成多个片段的过程中,本文希望尽可能的减少不同主题内容之间的相互影响,以减少分类过程中噪声的影响。实验结果表明本文的方法可以有效的提升文本分类的效果。2.对于短文本相关的英文论文标题缩写词生成任务,除了对给定的文本进行词法层面的分析之外,本文还增加了句法层面和语义层面的分析,使得本文对重要词的识别更为准确。除此之外,本文还对现有的单词建模了n-gram的语言模型,并将语言模型用于选择系统生成的候选缩写词。实验表明本文的系统在recall的指标上要优于以前的方法和一些在线系统,而且从系统生成的候选缩写词例子来看,本文提出的系统生成的缩写词更接近于作者给出的缩写词。