论文部分内容阅读
Web2.0技术的广泛应用,为人们网上信息交流提供了友好的技术平台。网络社区如人人网,Facebook, LinkIn, Twitter,以及博客、微博等多种信息交流形式,使得网上信息传播的途径增多,传播速度迅捷。为了有效监管和控制网上各种倾向性信息(包括低级、黄色、暴力、邪教、反社会等)并及时掌握社会焦点信息的传播,对于网页文本信息的倾向性分析成为研究的热点问题。对于文本的倾向性分析属于文本挖掘的研究领域,所用到的基本方法涵盖了自然语言的理解和处理、统计分析、数据挖掘、知识管理等方法。传统的基于规则的文本挖掘方法规则的建立是瓶颈问题,由于规则的僵化和滞后使得文本分析的效果不够好;基于统计的文本挖掘方法通过词语提取和简单统计计算文本的整体倾向度,结果偏重于经验,文本分类的效果不够细致;基于机器学习的文本倾向性分类方法需要大量的样本对分类器进行训练,在文本分类初期,特别是对于特定领域文本的分类初期,由于样本数据的缺乏必然导致分类效果不够理想,这也将使语料库的样本不够精确,间接导致后期的文本分类准确度较低;支持向量机的方法可以较好的解决小样本学习的问题,但算法比较复杂:而基于相关性的分析方法提供了一种更细粒度的文本倾向性分类方法,考虑情感词、词组以及特征词的依存关系,分类效果比较前面几种方法更好,但对自然语言的处理技术提出了更高的要求;基于语义学的文本倾向性分析方去以情感词汇和词语的倾向性为主要特征,通过过滤模板或者相关性计算分析文本的倾向性,准确率可以达到80%,但模板的设计生成以及相似性计算阈值的设定成为关键的问题。上述文本倾向性分析的结果都是给出文本的倾向性分类结果,对于这种结果的划分取决于阈值的设定,而阈值的设定很大程度上是主观的。另一方面,文本倾向性的分类结果不能够直观地描述出文章作者要表达的主题内容,特别是对于那些在设定阈值附近的文档可能存在误判的情况。针对前面描述的已有文本倾向性分析方法存在的问题,本文提出采用概念图挖掘的方法来进行文本的倾向性分析,提高中文文本挖掘的可视化程度,目的在于提高中文文本倾向性分析的准确度。无论文章的内容是什么,都可以图形化地提取文档的主题内容,避免因为阈值设定的误差而导致文本倾向性分类的错误。论文的研究工作主要体现在以下几个方面:(1)提出基于中文自动构词算法的SVM文本倾向性分类方法词库在文本分类研究中起着至关重要的作用。通用的文本倾向性分析方法对于文本的分类都是基于统一大词表,一般包含几十万甚至于上千万的词汇量,而对于文本倾向性分析而言,最常用的只是一些领域内的词语,统一大词表的搜索方式必然会消耗很多的搜索时间,导致搜索速度降低。本文提出的中文自动构词算法可以自动化地动态构建专用词库,不仅解决了统一大词表搜索时间过长的问题,同时也避免了人工构造专用词库词汇不足和添加词语之后的问题。(2)提出基于二元隐Markov模型和条件随机域模型的文档句法分析方法中文文本词汇量大,词的组合随机性强,表达的语义丰富多彩,基于随机理论的句法分析方法可以较好的符合中文的语言表达特点。因而本文采用二元隐Markov模型进行词汇标注,采用二阶条件随机域模型进行组块分析,结合对文档的主体结构分析可以较好的生成用于概念图挖掘的结构化的语法树。(3)提出由中文文本语法树自动生成初始概念图的方法将描述一篇文档的结构化的语法分析树映射为概念图是概念图挖掘的关键步骤。本文在前面句法及语义分析的基础之上,借助传统的统计分析方法提取文档语法树中的概念和概念之间的关系,并生成初始概念图,所提出的方法简单易行,分析速度快。(4)提出基于权重的剪枝算法解决初始概念图的化简问题,提取文档主题内容最初提取的概念图是比较庞大的,必须通过化简才能提取文章的主题内容。本文在考虑概念本身的重要性基础之上,通过概念图中概念之间联系的“度”来计算概念的权重,每一轮迭代将权重较低的概念节点删除,并将该节点的权重合并到邻接节点,经过多次迭代实现对初始概念图的化简,最后生成可以表达文档主题内容的简化概念图。为了证明本文所提出方法的科学性和有效性,文中对于所提出的策略、方法进行了详细的理论推导,给出具体的算法,并对每一部分内容设计了实验验证环节。实验表明,我们所提出的对于中文文档的概念图生成及化简方法对于概念提取的正确率达到50%以上,基本上与文献报道的英文文档的概念图提取的水平相当,而由于中文文本语言理解本身的困难,概念提取正确率达到50%这一指标是比较好的,说明本文提出方法有效。本文研究成果对于中文文本挖掘的可视化研究具有重要的理论意义,丰富和发展了中文文本倾向性分析理论,同时对于网上海量文本信息倾向性的快速分析具有重要的现实意义,可以用于公安系统及行业主管部门对于网络舆情信息的监管,也可以广泛应用于电子商务商家对于客户的个性化偏好的分析。