机器学习算法在文本分析中的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:yeshi804883653
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息资源的指数增长,如何实现海量文本数据的自动分析已成为日益紧迫的研究课题。近年来,作为文本自动分析的重要手段,文本聚类及热点信息发现逐渐受到研究者的重视。对互联网信息的聚类处理使人们可以从总体上了解信息主题的分布,并根据特定兴趣选择不同主题的文本进行浏览;对互联网热点信息的自动发现使用户更容易了解不同类别中最受关注的焦点。本文关注于文本聚类算法和热点信息发现算法的改进和高效实现,以期在海量数据和工程化环境中有效推动文本自动分析技术的实用化。首先,针对K-Means算法的聚类结果严重依赖于初始中心点的特性,本文在K-Means算法中引入了具有优化近似因子的delta近似K-Center算法,构造了改进的聚类算法KWOC(K-Means With Optimized Centers),用以实现更有效的初始中心点选择。实验表明KWOC可显著提高最终聚类结果的鲁棒性。在KWOC的具体实现中,本文创新性地设计了针对性较强的事务性文件系统,实现了K-Center中间计算结果的高效缓存,在文件层面实现K-Center与K-Means的计算结果共享。该方案显著降低KWOC算法的时间开销。其次,为了有效挖掘海量Web数据中的热点信息,设计了一种新颖的Web热点信息发现算法。该算法以分阶段的串频变化量统计矩阵为基础,结合串频变化的历史波动,得出有效的热点信息串的评价指标,并根据由该指标选中的热点信息串最终完成热点文章的甄选工作。该算法的具体实现同样利用了有针对性的事务性文件系统,因而具有较高的时间效率。最后,论文给出了针对上述聚类及热点信息发现算法的事务性文件系统的设计方案及实现方法,该事务性文件系统基于一致性哈希理论,以高速的散列文件为基础高效地实现了算法运行中计算结果共享,有效地把计算依赖转化为事务依赖,在事务重建理论框架下为算法的可靠性提供了有力保障。实验表明,本文提出聚类算法、热点算法及其系统方案实现具有良好的性能和效率,可以适应于实际工程环境下的海量数据应用。
其他文献
通信行业竞争日益激烈,如何通过对现有历史数据的分析,提高网络资源的利用率,制定切实有效的业务政策来指导企业合理分配资源、提高服务质量,是通信行业决策者亟需解决的问题
被誉为“第三代神经网络”的Spiking神经网络是神经科学,计算智能领域的最新研究成果,它是能够有效模拟生物神经元之间信息随时间连续传递的动力系统。该模型采用时间编码方
随着计算机技术的快速发展和测控应用业务的不断增加,航天测控系统从功能单一、人工操作向多功能、智能化方向转变,网络化分布式状态测控的应用也越来越多。随着各种不同应用
随着Internet的快速发展,互联网中蕴含了海量的信息资源,按其所蕴含信息的“深度”可以将其划分为Deep Web和Surface Web。Deep Web中蕴藏的信息比SurfaceWeb中的信息规模更
随着网络在社会、经济、生活等各个方面重要性的不断提升,越来越多地研究机构和科研人员开始从事网络拓扑结构方面的研究。网络拓扑检测是将检测到的网络设备及其之间的动态
本文作者参与青岛崂山智能视频监控系统的开发工作,对该系统中运动目标检测与跟踪、无线网中流媒体传输策略等关键问题的理论基础和实现技术进行了深入的研究。本文以该课题为
随着互联网技术的高速发展,网络传输速率显著增加,网络应用复杂性增强,使得网络蠕虫成为网络系统安全的重要威胁。从1988年第一个网络蠕虫Morris到疯狂传播的ANI蠕虫,CERT(计
随着网络规模的不断扩大和上网用户的大量增加,视频点播服务已经成为当前网络应用的热点之一。但是传统的C/S模式的流媒体服务系统由于服务器性能和服务器端的带宽资源有限,使
密码学在保障信息安全方面起着至关重要的作用。门限秘密共享是密码学的重要组成部分,它能够分散责任,进一步提高了系统的安全性和健壮性,在保存重要信息、密钥管理、团体签
IEEE 802.16系列标准又称为WirelessMAN空中接口标准,是由WiMAX论坛主推的宽带无线接入标准,主要应用于无线城域网(WMAN,Wireless MetropolitanArea Network)范围。本论文研