论文部分内容阅读
在“微时代”全面进军我们的生活的现在,信息爆炸已经是困扰用户的最大问题。微博是一个新兴的网络交流平台,用户可以在微博上随意发表情感信息、新闻评论等,但是由于用户数量急剧上升,面对每天不断出现的新信息,用户再次陷入了“信息过载”的局面,国内外对微博领域信息聚合的研究越来越多,但是主流的信息聚合则是偏重于聚合事件本身相关的服务信息或者是与该事件同一行业或者领域的相关信息,如何在纷乱繁杂的微博信息中最快的获取有用的相关信息成了改善用户体验的重要方面。用户对网络感兴趣的并不是网络资源所蕴含数据量的大小,而是那些可以在一定程度上能够满足自己需要的个性化信息,用户都希望能在最短的时间内尽可能多的掌握这些信息的分布情况,本文通过分析微博用户在使用微博时候的行为特点,从用户的浏览行为为出发点对微博信息进行聚合研究。根据用户行为产生的微博信息数据,本文在进行网络信息提取时采用了网页信息提取算法和分词算法。在网页提取算法中,本文采用了增量式微博文本搜索方法,根据网页信息的结构特征,通过搜索和分析HTML节点迭代提取用户数据;由于网络上的“迷你”型新词条不断出现,为了使数据更加人性化,本文在采用分词算法的同时作了改进,采用基于词条频率统计算法对信息进行预处理,筛选出高频率的用户词语,加入用户字典,提高分词的正确率,从而使词条信息更有价值,通过迭代提取和分析实现自动搜集并分析用户数据,构建微博词条关系库;在可视化方面,本文通过可视化模型展现用户在讨论话题时的具体交互数据,采用了力引导的布点算法,为了提高用户体验,本文改进了该算法,添加用户操作行为响应,使得该算法在保持该布局优势的同时更具操作性,同时本文也采用了层次边缘捆绑技术思想,通过构造二次曲线,形成线束,减少用户视觉负担的同时能清晰显示数据之间的关系,通过聚合用户身边的微博信息能使用户更快的获得他们感兴趣的信息。本文建立了一个基于用户行为的可视化系统,从新浪微博的热门词条进行切入,利用新浪的API获取一段时间内用户产生的热门数据,构建热度词条云,采取后台运作的方式自动搜集用户使用微博时讨论相关话题产生的数据,对微博信息进行提取和分析,深入挖掘词条的关系网络,并通过迭代运算对该词条的相关微博进行迭代分析,使数据更符合真实。最后通过可视化技术呈现给用户,从而帮助用户更快速的获取有关具体词条的相关信息,能更好预测用户行为和网络信息的发展规律,掌握网络的信息发展趋势和监控网络环境。本文所建立的可视化系统是反映在大的网络范围所讨论的微博热门话题下用户行为所产生的相关数据,通过分析并提取信息对微博信息进行聚合,能够在最短时间帮助用户掌握用户所需要的信息,从而提升用户体验。本文最后展示了基于网络上产生的微博热度词条所搜集和产生的相关可视化信息,并提出该系统有待改进的地方。