【摘 要】
:
近十年来,互联网信息呈现了爆炸式的增长。互联网的迅猛发展使得我们跳出了本地的局限,可以随意访问世界上所有的在线文本。在这种背景下,企业中的网页信息也随着企业规模的
论文部分内容阅读
近十年来,互联网信息呈现了爆炸式的增长。互联网的迅猛发展使得我们跳出了本地的局限,可以随意访问世界上所有的在线文本。在这种背景下,企业中的网页信息也随着企业规模的扩大而逐渐增加。如何有效的组织和管理这些信息,成为了目前急需解决的问题。搜索引擎的确可以帮助用户将网络信息本地化,但是在组织和管理企业内部网页信息等方面的功能却很有限。因此,设计和实现一个网页分类器帮助企业快速地组织和分类网页信息是十分必要的。本文对网页分类中所涉及的特征提取方法和网页分类算法进行了研究。首先,提出了基于词性的特征提取方法和SWT权重计算方法,该特征提取方法将提取出对文本分类有意义的实词,过滤掉一些无用的虚词和停用词,降低了特征项的维数,提高了文本分类的效率;对于特征权重的计算,并没有采用传统的TF-IDF公式,而是提出了新的计算特征项权重的方法,即SWT方法。其次,提出了改进的KNN算法,该方法与原有方法相比提高了分类的召回率和分类速度。再次,提出了结合文本结构的向量空间模型算法,该算法主要是针对网页文本的特殊性,将网页文本的结构与向量空间模型相结合。最后,基于以上两种分类算法设计并实现了网页分类器。本文首先对企业搜索引擎进行了介绍,其次讲述了文本分类的相关技术,包括文本表示模型、常用的特征提取方法和文本分类算法(KNN,支持向量机,类中心向量,贝叶斯等),再次研究了新的特征提取方法和网页分类算法,对于特征项权重的计算,提出了新的计算特征项权重的方法,即SWT方法。最后根据提出的算法设计和实现了网页分类器。经过测试,表明以上提出的方法,不仅在分类的准确率和召回率方面有所提高,而且提高了网页分类的速度,符合企业搜索引擎中自动分类的需要。
其他文献
近年来随着WEB应用的迅速发展,XML(可扩展标记语言)的应用日趋广泛,并逐渐成为数据交换领域事实上的标准。在税务应用软件中,出现不少应用软件涉及到XML数据库的应用,为解决XML文
防火墙作为一种访问控制技术,已经成为保护网络安全的一个重要措施,也是网络安全研究领域中的核心问题之一。随着防火墙的发展,混合使用包过滤技术、代理技术和其它一些新技术的
缺陷和漏洞广泛存在于各种软件中,难以避免,由其引发的故障很容易给生命财产带来损害,甚至灾难性后果。应对这一问题的有效途径是设计有效合理的自动化的测试方法对软件系统
伺服信息是用来对磁头进行定位的位置信息,而磁盘伺服信息刻写是硬盘生产过程中的核心技术环节。面对磁盘存储大容量、高密度和小型化的迫切需求,磁盘制造工业必须不断突破传
应用过程层析成像技术进行多相流参数检测可获得多相流体二维或三维的时空局部的、微观的分布信息,为解决多相流参数检测这一难题提供了一条有效途经。过程层析成像技术经过十
随着Web应用之间的XML数据交换数量的不断增长,如何在数据库中可靠和有效地存储XML文档以及XML和数据库之间的数据交换技术将变得越来越重要。将XML数据存储到关系数据库中,可
关于求解原子团簇稳态结构的问题是当今物理学和化学领域出现的具有实际意义的NP难度问题。对于NP难度问题的求解,仍然没有找到求解该类问题的通用精确算法,因此研究具体NP问
随着Internet的不断发展,世界范围内掀起了一股电子商务热潮。然而不安全事件的不断发生,使人们对电子商务的安全性心存疑虑。由于电子商务的自身特点,决定了在交易纠纷或者
随着经济的发展,智能视频监控在构建和谐社会与平安城市,保障国家安全与应急救灾等领域有着重要意义。作为智能视频监控系统中的核心技术,运动目标的检测与跟踪是计算机视觉
随着互联网中图像数据的不断增长,用户从海量数据中获取有用信息的难度越来越大,图像检索作为一种帮助用户进行有效获取信息的工具显得越发重要。检索的一大难题是如何从用户