【摘 要】
:
话题识别与跟踪,作为一项旨在帮助人们应对信息过载问题的研究,以新闻专线、广播、电视等新闻媒体信息流为处理对象,将语言形式的信息流分割为不同的新闻报道,监控对新话题的
论文部分内容阅读
话题识别与跟踪,作为一项旨在帮助人们应对信息过载问题的研究,以新闻专线、广播、电视等新闻媒体信息流为处理对象,将语言形式的信息流分割为不同的新闻报道,监控对新话题的报道,并将涉及某个话题的报道组织起来以某种方式呈现给用户。它的研究目标主要是对网络信息流进行一定的预处理之后对报道进行切分、话题识别、话题跟踪等,在这些任务中不可避免地要用到一些数据挖掘的理论知识以及相关的算法实现,所以选取什么样的分类聚类算法,达到什么样的效果以及对结果如何评价,都是目前该领域正在研究的热点问题。
话题识别是话题识别与跟踪的一项子任务,聚类算法是话题识别的核心技术。本文针对话题识别的聚类算法做研究,用K-means模型作为聚类模型,并结合进化策略的文化算法作为其进化寻优机制来对算法进行设计。针对以上思路,本文主要内容如下:
(1)对聚类算法中用到的进化算法进行详细探讨,包括进化算法的三个主要分支遗传算法、进化规划、进化策略。通过算法比较,确定进化策略作为K-means聚类模型下的文化算法的种群空间,并对进化策略中的重要算子进行详细研究,为聚类算法设计奠定基础。
(2)依据文化算法的框架分别对文化算法的种群空间、信仰空间以及这两个空间中的通信协议即影响函数和接受函数进行研究,探讨各种函数的工作机制,并研究嵌入文化算法框架的进化策略种群空间。
(3)根据话题识别的聚类算法要求,对文化算法中的种群空间和信仰空间等进行设计,提出结合K-means算法的混合聚类算法。选取一定的语料对话题文本进行聚类实验,对实验结果进行分析,验证了提出的算法在话题识别中应用的有效性。
其他文献
近年来,因特网难以置信的飞速发展,使得web成为一个巨大、分布广泛、全球性的信息中心。在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,如何从海量信息中快速有效的获得
多秘密共享是密码学技术一个很重要的研究方向,它为重要信息的安全保存和合法利用提供了一种有效的途径,是信息安全方向的研究热点。利用它保管秘密,不但能防止权力过分集中
GML(Geography Markup Language)是一种用于描述现实世界中地理对象的标识语言。基于World Wide Web Consortium(W3C)提出的更宽泛的。Internet标准,GML以一种可以在互联网上
无线多媒体传感器网络(WMSNs)是在传统无线传感器网络(WSNs)的基础上发展起来的具有音频、视频、图像等多媒体信息感知功能的新型传感器网络。同只具有简单环境数据采集功能
随着数据仓库、决策支持等OLAP技术的广泛应用,数据库系统对执行引擎查询效率的要求越来越高,因此人们提出了一种的新的数据库系统设计理念,即以列为基本存储单位的列存储数
随着P2P网络技术的逐渐深入,P2P作为一种分布式网络技术在许多领域得以广泛的应用,尤其是针对资源共享。然而由于网络所存在的固有的安全性问题已成为制约P2P网络中资源共享
随着网络技术的不断发展,基于UDDI的传统的Web服务发现技术已越来越不能满足目前的需求。UDDI由于没有提供足够的语义信息,只能够进行基于关键字的服务查找,匹配精度不高。因
随着全球经济一体化,各个行业的竞争也越来越激烈。对于机械加工企业来说,如何提高生产率、产品质量和减少生产成本,成为企业关注的焦点话题,也成为企业生存的根本因素之一。
随着多媒体技术和网络的快速发展,图像信息资源大量增多,图像的有效管理和检索变得越来越重要。用户如何从海量图像数据库中快速而又淮确地检索出需要的图像,是目前研究的一
传统的信息检索技术往往是集中式的,随着数据量的指数增长,这种集中式的数据存放对于数据库的更新维护带来很大的难度,同时检索查询操作也变得非常费时,这造成了整个系统性能