【摘 要】
:
随着WWW的迅速发展和普及,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对网上海量的信息资源,人们很难迅速有效的找到真正所需的信息。因此,如何合
论文部分内容阅读
随着WWW的迅速发展和普及,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对网上海量的信息资源,人们很难迅速有效的找到真正所需的信息。因此,如何合理和有效地组织和管理网上信息,已经成为Web智能领域里一个十分重要的研究课题。随着网页信息容量的快速增长,依靠人工的方式来进行大量的网页分类是不合理的。因此,网页的自动分类研究成为了一个日益重要的研究领域,并且,它还逐步与信息检索技术(IR)、搜索引擎、信息过滤等技术相结合,成为解决人们网上信息获取的重要手段。本文的研究内容主要有以下几个方面:(1)对网页分类中的特征表示、特征项提取、分类方法等关键技术,以及难点和突出问题进行探讨和研究。(2)本文在研究典型新闻网页特征的基础上,提出一种综合利用网页的URL特征、网页的内容特征和网页的结构特征构建的网页特征集,并在此基础上采用三种不同的分类算法构建分类器。实验结果表明,在本文所提出的新闻网页特征集的基础上构建的分类器能很好的识别新闻网页。(3)本文在进一步研究中文网页特征的基础上,提出了一种利用网页链接信息来改进中文网页分类效果的方法。利用新闻网页自动识别方法过滤新闻网页中的噪音链接后,对有效链接进行分类,利用链接的类别特征来增强分类器的效果。实验结果表明,在本文提出的综合利用网页内容特征和网页的链接类别特征的基础上构建的分类器能很好的实现中文网页分类。(4)面向主题的Web搜索引擎的设计与实现。利用新闻网页自动识别方法对搜索引擎爬虫进行控制,仅仅抓取网页中属于新闻类的页面,实现面向主题的Web搜索引擎。
其他文献
图像镶嵌是将两幅或多幅图像拼接在一起,构成一幅宽幅全景图像的技术过程。遥感图像镶嵌是遥感图像制作中非常重要的一步,镶嵌效果的好坏,直接影响着图像判读、解译等后续工作的
随着无线通信技术的不断发展,无线移动自组网受到了越来越多的关注。Ad Hoc网络作为一种特殊的无线移动通信网,其无中心、自组织、抗毁性强等特点使原有基于固定的或有中心的MA
专利作为知识产权的核心要素,正成为各个国家和公司争相掌握的重要资源。企业的技术人员需要从专利管理系统中得到大量有价值的技术信息。对专利的实时检索、科学分析和研究已
SCORM(Sharable Content Object Reference Model)是由美国的教学管理系统全球化学习联盟(ADL:Advanced Distributed Learning)所制定的远程教育标准。SCORM标准强调电子化课
随着网络多媒体技术的快速发展,互联网上的图像等多媒体内容的数量正在以指数级的速度迅猛增长。因此,实现大规模互联网图像的有效管理和检索具有十分重要的现实意义。由于大
入侵检测系统是网络安全一个重要组成部分,可以较好地弥补传统的防火墙技术不能解决的问题。生物免疫系统与入侵检测系统有着许多相似之处,比如分布式保护、多样性、自适应性
无线传感器网络具有能量有限、通信能力有限、多跳路由、动态拓扑、节点数量众多且分布密集等特点。同时,无线传感器网络的还面临着一些分布式优化问题。如,任务动态部署、节
随着计算机技术和互联网的快速发展,社交网络、智能设备、传感器设备、云计算中心实时生成大量的信息数据,如何从中提取有价值的知识已成为一个巨大的挑战。形式概念分析由德
大数据正在成为继云计算、物联网、移动互联网之后新的信息革命高潮。无论是从数据传递及共享、数据存储,还是从数据检索及分析,信息技术正面临前所未有的挑战。信息表示和查询
软件测试是为了保证软件的正确运行而进行的一项重要活动,回归测试是软件修改后为了确认修改的正确性而进行的软件测试。回归测试策略分为重测所有(retest-all)和选择性(selec