基于新闻评论数据的K-means聚类算法的研究

被引量 : 20次 | 上传用户:gfgtestweb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网在经济社会生活中发挥着日益重要的影响,成为公众表达民意、参与经济政治及社会生活的一种新的舆论平台。个人网站、论坛、博客、评论区的出现,使信息传播更加便利快捷,个人观点的表达也更加充分。中国社会科学院社会蓝皮书2010年中国社会形势分析与预测指出,网络媒体正成为舆论新格局的重要组成部分,网络上热点新闻观点的表达集中不仅反映了公众对社会重大公共事件的参与,而且反映了公众所表现出的各种价值判断和思想动态,所形成的影响不可低估,政府应该形成对网络民意的监测、反馈和吸纳机制。因此网民在网络上有意识或者无意识表达出来的民情民意,对社会热点问题的关注表达出的价值取向和观点越来越具有研究和参考价值。电子政府融合了现代政府管理理念与最新的信息技术,通过智能化的信息处理,采用人工智能、数据挖掘、管理决策等技术来实现辅助决策系统,对于提高效率、提高政府回应与决策能力、提高决策的科学性和准确性,实现开放型、服务型、责任型政府具有重要意义。文本聚类技术中常采用的K-means聚类算法在实践中获得了广泛的应用,它具有高效的计算性能,具有清晰的、全局的目标函数,聚类过程简单、高效、鲁棒,适用于许多类型的数据。然而不同的应用需求、不同类型的数据对K-means算法提出了不同的要求。如何从大型门户网上热点新闻评论信息中提取出可供决策参考的结果是需要研究的问题,能够自动对评论信息进行聚类分析是解决这个问题的关键。本文选择K-means聚类算法,采用文本聚类技术,围绕评论信息的聚类问题做了一些探索性的工作,期望能够从这些评论信息中得出有价值的观点结果,有效提供给政府相关部门,用于在公共决策中吸纳、监测民意和辅助决策参考。在新闻评论聚类实现过程中,采用向量空间模型的文本表示方法,将最初的评论数据经过中文分词、特征提取、权重计算等处理,把评论文本数据转化成可进行聚类运算的向量,再进行聚类分析。并针对新闻评论数据的特点和K-means算法的主要缺点和不足,构建了新闻评论专用停用词表,对聚类算法实现中的关键环节特征项提取、初始聚类中心的选择和划分类别方法进行了改进,并对聚类结果和影响聚类结果的因素进行了分析说明。最终的聚类结果和F1值度量评价指标验证了本文研究内容的有效性。最后,把新闻评论聚类的研究技术应用到新闻评论推荐系统中,实现了系统中的新闻及评论的抓取和新闻评论聚类功能,得到了良好的聚类观点集,为后继的评论信息的推荐提供了更有价值和意义的评论观点。
其他文献
基金会作为一种慈善机构,在美国高等教育发展的进程中具有重要的意义。它根植于美国悠久的慈善传统和文明,从殖民地时期就以私人捐赠的形式大力扶植高等教育,为美国高等教育
多丽丝·莱辛一贯关注女性成长,已有学者从女性成长小说角度出发研究她的《暴力的孩子》、《青草在歌唱》以及《一个好邻居的日记》。然而目前仍未有学者从这一角度出发研究
师资队伍的建设一直是基础音乐教育的重点,仅仅从师资方面孤立的建设是无法真正完成教学目标的,通过综合的教学环境改革,全面促进师资队伍的建立。
课程价值取向是高校课程运作的灵魂和方向。目前,学术界公认的课程价值取向分为三种类型:社会本位主义的课程价值观,知识本位主义的课程价值观,个人本位主义的课程价值观。不
文化选择是高等教育的基本功能。西南联大在中国高等教育史上创造的奇迹,从文化的视角进行剖析,就在于它通过正确的文化选择,创造了一种为西南联大知识分子群体所认同,以中国
为了研究开发高附加值的草产品生产工艺,以蒙早苦荬菜(Lactuca indica L. cv. Mengzao)为试验材料,以叶蛋白质提取量、粗蛋白质提取量和叶蛋白质中的粗蛋白质含量为测定指标,
“昭君出塞”是一个来源于史传又流传久远的故事,但在元代以前,对其讲述基本上侧重于故事所引发的情感的抒发,称不上真正的“故事”。在元、明、清三代,此故事在叙事文学领域
研究背景:主动脉夹层治疗方式的选择取决于夹层的预后和解剖学特点,A型夹层明显受益于手术治疗,一般推荐所有A型夹层均应行手术治疗。但对于B型夹层,最佳治疗方式仍存在争议,
连铸坯动态轻压下技术已成为改善连铸坯中心偏析和缩孔的最有效手段之一,是现代连铸机先进性的一个重要标志。本文以国内某厂的国产280mm×325mm大方坯连铸机为依托,进行了大
目的统计分析某单位女性职工的妇科体检结果及健康状况,以及对其宫颈癌(Cervical cancer,CC)、乳腺癌(Breast cancer,BC)的认知水平进行调查与探讨,并提出相应对策。方法选择