论文部分内容阅读
随着Web 2.0和自媒体技术的迅速发展,越来越多的普通Web用户正成为互联网的主角。以FaceBook、Twitter、微博等新一代社交工具为代表的网络应用已经深入到了人们的日常生活中。在中国,微博作为信息交流和分享的平台,因具有更强的信息传播能力和成员组织能力等特点深受人们的喜爱。在微博中,各用户通过关注对方来建立联系和进行信息交流与分享。随着长时间的关系积累,所有用户通过关注关系共同组成了一个复杂的社会网络系统。而与Facebook、腾讯QQ这种好友关系不同,微博的关注机制并没有把用户之间的真正社会关系表达出来。比如微博中的大V机制让大V用户得到了很多关注,但是关注大V用户的普通用户未必是大V用户的支持者。所以我们需要对微博用户之间的社会关系进行深层次的挖掘,发现其真正的社会属性,并将挖掘结果以一种直观的方式展示出来。本文介绍了一个使用情感分析方法发掘用户真实社会关系的系统——基于情感分析的社会关系挖系统。本文以真实的微博数据为研究对象,使用基于支持向量机的有监督算法和基于语义的无监督算法设计了系统。系统的主要功能是对微博数据进行情感倾向性分析,并基于情感对微博用户间的社会关系进行挖掘。在基于语义的无监督算法中,首先对表示不同情感的动词、形容词、副词和带有情感倾向性的标点符号分别赋予了不同的权重;然后结合情感词词典,并根据微博短文本的特点,为每句话分段打分;最后根据得到的总分来判断单条微博的情感倾向性。在基于支持向量机的有监督分析算法中,首先使用TF-IDF计算每个词的权重,并作出权重词典;其次把权重大于一定阈值的词去掉,因为很多常用词和停止词的权重很大,为了不影响分析结果,所以要把权重大于一定阈值的词去掉。不过为了防止情感词、否定词和程度副词被删除,在删除权重大的词之前,要先遍历一遍词典;再次对权重词典中的每个词赋予一个唯一的id,而且要在情感词词典中加入叹号等能加强情感的标点符号。最后同样根据得分来判断单条微博的情感倾向性。本文首先介绍了系统中相关技术的国内外研究现状。其次从需求分析、数据分析和可行性分析等几个方面对系统进行了分析,明确了系统可行性和需要实现的功能。再次对系统进行了概要设计和功能模块设计。再者,在总体设计的基础上对每个模块都进行了详细设计与实现。最后对系统进行了测试,对系统的功能做出了评估,并总结了系统的优点与不足,指出了未来的工作方向。