【摘 要】
:
面向社情民意分析的Web挖掘平台是基于Web内容挖掘和Web行为挖掘的,需要处理大量的Web文档.而Web文档是半结构化的数据,为了提高系统的效率,本文利用HTML标记对网页进行摘要
论文部分内容阅读
面向社情民意分析的Web挖掘平台是基于Web内容挖掘和Web行为挖掘的,需要处理大量的Web文档.而Web文档是半结构化的数据,为了提高系统的效率,本文利用HTML标记对网页进行摘要提取.平台的目标是要挖掘出一段时间内用户普遍关注的热点问题,针对该目标本文对文本聚类算法进行了深入的研究,并针对文本处理的特点,对K-means算法进行了改进,避免了聚类中心漂移导致聚类结果不均的问题.基于以上的理论基础,本文实现了面向社情民意分析的Web挖掘平台.系统主要包括词典整理模块、网页摘要提取模块、文档向量形成模块以及聚类模块.通过对平台的性能评测,证明平台有较好的主题聚类能力.当输入的资料库是一段时间内用户经常访问的网页时,通过平台的挖掘就可以得出这段时间内用户普遍关注的热点问题,从而实现平台的设计初衷.
其他文献
程序切片是一种重要的程序分析理解方法,用于从源程序中抽取对程序中特定点上的特定变量有影响的语句和谓词,组成新的程序(称作切片),然后通过分析切片来分析源程序的行为。二十
随着新兴的分布式多媒体应用的大量出现和网络多媒体技术的高速发展,高效的QoS支持将变得越来越重要。为此,人们提出了各种支持QoS的体系结构,这其中,最关键的问题就是如何进
节目素材是广播电视的灵魂,是电视媒体数字化网络化的源动力和重要内容。随着数字化的进程不断加快,各电视台之间对节目素材特别是新闻素材的共享和及时交换的需求也越发明显
地理信息系统(GIS)是信息技术(IT)的一个重要组成部分,广泛应用于各专业领域的信息系统,例如资源管理、银行、设施管理、交通运输、气象预报等等,在信息社会中占有越来越重要
未来移动通信与互联网的结合将是网络发展的大趋势之一。移动互联网将成为日常生活的一部分。移动互联网不仅仅是移动接人互联网,它还提供一系列以移动性为核心的多种增值服
传统题库系统主要以文本格式进行存储,缺少语义信息,计算机不能理解题库中习题的具体意义;其次,题库的表现形式多种多样,题库资源难以共享及复用。而且传统题库只针对习题所包含的
随着信息技术和管理理论的发展以及计算机和网络的广泛应用,工作流技术正在成为计算机应用领域的研究热点。对工作流技术进行深入的研究对于提高企业的信息化程度、运行效率
本文把遗传算法应用在OptimalPrCAD的零部件优化设计模块中,用于改善优化设计效果不理想的缺点。遗传算法是一类可用于复杂问题优化计算的随机搜索算法,具有思想简单、易于
电力生产是耗能大户,降低电力生产中的煤耗率是发电企业节能工作的重点,采用科学的负荷分配方法是降低煤耗的有效途径。 本论文对火电厂负荷优化分配系统存在的问题,分析了国内外负荷分配的现状,从软件理论和具体应用方面提出了在线的解决方案。通过建立各单元机组的性能模型,应用二次曲线进行拟合,在线确定机组的煤耗特性曲线,从而为实现负荷优化分配提供了可靠的依据。 在火电厂负荷优化分配系统软件分析和设
供应链管理是进入21世纪后企业适应全球竞争的一个有效途径。现代企业越来越深刻地认识到:当今世界,竞争已经由企业之间的竞争转变为供应链之间的竞争。但传统的基于纸张、传真