论文部分内容阅读
互联网在经济社会生活中发挥着日益重要的影响,成为公众表达民意、参与经济政治及社会生活的一种新的舆论平台。个人网站、论坛、博客、评论区的出现,使信息传播更加便利快捷,个人观点的表达也更加充分。中国社会科学院社会蓝皮书2010年中国社会形势分析与预测指出,网络媒体正成为舆论新格局的重要组成部分,网络上热点新闻观点的表达集中不仅反映了公众对社会重大公共事件的参与,而且反映了公众所表现出的各种价值判断和思想动态,所形成的影响不可低估,政府应该形成对网络民意的监测、反馈和吸纳机制。因此网民在网络上有意识或者无意识表达出来的民情民意,对社会热点问题的关注表达出的价值取向和观点越来越具有研究和参考价值。电子政府融合了现代政府管理理念与最新的信息技术,通过智能化的信息处理,采用人工智能、数据挖掘、管理决策等技术来实现辅助决策系统,对于提高效率、提高政府回应与决策能力、提高决策的科学性和准确性,实现开放型、服务型、责任型政府具有重要意义。文本聚类技术中常采用的K-means聚类算法在实践中获得了广泛的应用,它具有高效的计算性能,具有清晰的、全局的目标函数,聚类过程简单、高效、鲁棒,适用于许多类型的数据。然而不同的应用需求、不同类型的数据对K-means算法提出了不同的要求。如何从大型门户网上热点新闻评论信息中提取出可供决策参考的结果是需要研究的问题,能够自动对评论信息进行聚类分析是解决这个问题的关键。本文选择K-means聚类算法,采用文本聚类技术,围绕评论信息的聚类问题做了一些探索性的工作,期望能够从这些评论信息中得出有价值的观点结果,有效提供给政府相关部门,用于在公共决策中吸纳、监测民意和辅助决策参考。在新闻评论聚类实现过程中,采用向量空间模型的文本表示方法,将最初的评论数据经过中文分词、特征提取、权重计算等处理,把评论文本数据转化成可进行聚类运算的向量,再进行聚类分析。并针对新闻评论数据的特点和K-means算法的主要缺点和不足,构建了新闻评论专用停用词表,对聚类算法实现中的关键环节特征项提取、初始聚类中心的选择和划分类别方法进行了改进,并对聚类结果和影响聚类结果的因素进行了分析说明。最终的聚类结果和F1值度量评价指标验证了本文研究内容的有效性。最后,把新闻评论聚类的研究技术应用到新闻评论推荐系统中,实现了系统中的新闻及评论的抓取和新闻评论聚类功能,得到了良好的聚类观点集,为后继的评论信息的推荐提供了更有价值和意义的评论观点。