论文部分内容阅读
随着互联网应用的发展和普及,网络评论成为人们了解产品信息的重要途径。其中,网络图书评论是一种典型的文化产品评论,与传统的实体产品评论与服务产品评论相比,书评文本不仅在形式上没有固定的模式和规范化结构,并且在内容上也更加广泛和抽象。再加上网络评论具有口语化和自由化等特点,使得针对书评的文本挖掘研究具有一定的挑战性和前沿性。文本以科技类图书的中文网络书评作为研究对象,目的是探索和实现中文书评的文本挖掘方法,并将结果以文摘的形式呈现给用户,帮助读者快速了解书籍信息。本文的研究工作主要包括以下三个方面的内容:(1)书评内容分析与书评文本挖掘框架的构建:为了确认科技图书中文网络书评含有的主要信息,本文首先对多篇中文书评的内容架构进行了定性分析,将书评内的信息分成七个主要类别,并以句子为单位对每个句子的信息类别进行了人工标注。在定性分析的基础上,本文还根据书评信息类别分别从篇章和句子层面对书评内容进行了定量分析,进一步总结了书评内容的类别分布情况,从而将七类信息中的书籍内容、主观评价和适用读者确定为中文书评的核心内容。通过上述内容分析,本文将这三类核心内容确定为最主要的挖掘对象,并基于此构建了一个面向中文书评核心内容的文本挖掘框架。(2)书评文本挖掘框架的实现:在传统的产品评论挖掘方法基础上,本文设计了一种面向中文书评核心内容的文本挖掘流程,并以此实现本文所构建的书评文本挖掘框架。本文所设计的书评文本挖掘流程包括三个步骤:①书评文本预处理,本文主要介绍了一种基于句子依存关系的语义分句方法和基于向量空间模型的文本表示方法。其中语义分句是对传统标点符号分句的一种改进,目的是提高分句的准确性,有利于文本分类和信息抽取工作。文本表示部分主要介绍了本文采用的两种特征选择方法和TF-IDF权重计算方法。②书评文本内容解析,主要是采用文本分类方法识别出含有核心内容的三类句子,本文在基础分类实验中比较了文档频率和信息增益两种特征选择方法,并将分类性能较好的信息增益方法确定为主要实验方法;为了提高句子文本分类性能,本文还采用了基于SMOTE的数据平衡方法和基于词向量的短文本特征扩展方法;此外,本文还提出了一种基于词向量的中文书评情感词典构建方法,目的是基于情感词典将主观评价类的句子进一步分为褒贬两类。③书评内容信息抽取,该步骤目的是从细粒度句子层面分别抽取三类句子中的关键信息,本文提出了一种基于依存句法分析的信息抽取方法,针对三类信息的特点分别制定了不同的抽取规则和抽取算法,并通过对抽取结果的准确率和召回率分析证实了抽取方法的可行性。(3)书评文本挖掘结果的应用:本文对书评挖掘结果的应用进行了探索,分析了书评挖掘结果的展示方法,并设计了一种中文书评文摘模板对挖掘的三类信息进行集成处理。为了对书评文摘的质量进行评估,本文通过设计用户调查问卷对文摘的写作质量和有用性等多个方面进行评价,测评结果显示利用本研究书评文本挖掘结果生成的文摘具有较高的质量,在另一方面也证实了本研究所提出的中文书评文本挖掘方法具有一定的可行性和实用性。