基于体裁的金融网页自动分类方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wonder568
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,网页自动分类是一个充满前景而又广受关注的话题。它优化了互联网信息检索系统,使人们能方便、快捷地获取所需要的信息。然而,随着海量Web信息资源的迅猛发展,如何保证网页分类质量是一个亟待解决的难题。再加上人们对分类准度要求更加“苛刻”,网页的自动分类系统面临着更大挑战。其中将网页按体裁来分类是信息检索系统所提出来的、不同于传统按主题分类方法的网页分类需求,而目前人们在这一方向上的研究还不充分。为此,本文首先描述了一个完整的基于体裁的网页分类过程,并在实现一些经典特征提取算法的基础上,提出了新的特征提取方法,同时实现了三种主要的分类算法,并对他们的结果进行了试验对比。本文主要侧重特征选择和分类算法,具体研究内容包括:(1)本文实现了九种特征项选择方法,并以金融搜索为平台,对它们进行了研究和比较。在此基础上,我们提出了一种新的相对词(opposite words)特征项处理方法。OW本身有局限,刚被提出时,只对含有相对词的数据集有效。不过,随着对广义相对词的重新定义,OW局限性得到改善。实验结果表明,当OW与其他八种方法分别结合使用时,均有效地提高了分类器的质量。(2)在实验室的海天园金融搜索引擎系统上,我们实现了SVM、Baye和Na?ve Baye分类器,并对他们进行了分析和比较。不同的分类算法与不同的特征选择方法相结合,最后结果差异较大。我们希望找到最好的组合,并对分类过程中的各种技术进行优化,使最后分类效果达到最佳。最后,我们实现了各种特征提取算法与不同分类器方法的结合,并用实验进行了性能对比与分析,从而实现了对金融信息体裁分类方法的优化。
其他文献
科技文献检索是科技研究不可或缺的一项工作,随着电子文献资源的剧增,通过网络来检索文献,是目前最为方便的检索途径。目前Internet上用户使用的信息检索模式有基于关键词、
随着大数据时代的来临,流交换正在逐步成为数据交换发展的新趋势。它具有数据量宏大、内容不可预测和低时延的特性。然而,随着流交换应用的与日俱增,流交换的安全问题日益凸显。
随着社会的发展和科学技术的进步,现代社会对测量实验仪器的需求及其性能要求在不断提高。虚拟仪器改变了传统仪器的思想,充分利用计算机强大的软硬件功能,把计算机技术与仪
倒排索引是提高全文检索效率的重要技术,但是倒排索引的空间效率、动态性能、创建效率和检索效率一直是倒排索引面临的关键问题。本文正是围绕动态全文索引的构建合并、增量
随着互联网的迅速发展,Web上信息量急速增加,Web已经发展成为一个巨大的分布和共享信息资源的平台,如何从中获得想要的信息成为亟待解决问题,Web信息抽取技术由此产生。Web信
调度问题具有很长的研究历史,同时又分为好多类型,如流水车间、作业车间等。其中作业车间调度问题是一类满足任务配置和顺序约束要求的资源分配问题,是最困难的组合优化问题
数字水印技术作为一门新兴的技术,其主要应用领域在电子产品的版权保护上。本论文以数字水印在印刷品中的应用为切入点,从几个方面来研究如何提高数字水印算法的性能。本文介
近年来,随着物理层安全在信息安全领域得到越来越多的关注以及无线网络中轻量级安全需求的客观存在这两个因素的影响,使得依靠物理层属性提供机密性、认证性服务成为无线网络安
在信息安全领域,信息隐藏技术以其独特的安全、透明、鲁棒等特性引起了人们越来越多的关注。信息隐藏作为传统加密算法的有效补充,被广泛应用于多媒体版权保护和隐蔽通信。在
机动车辆牌照识别是现代智能交通中应用最广泛的一门技术。近年来关于车辆牌照识别系统的研究方法种类很多,也达到了很好的效果。但是对于多种格式的牌照的通用性不太好,造成