网页信息智能采集与分类的研究与实现

来源 :河北工业大学 | 被引量 : 6次 | 上传用户:zhuxuxu520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,我们已经进入了数字信息化时代。Internet作为当今世界上最大的信息库,也成为人们获取信息的最主要手段。由于网络上的信息资源有着海量、动态、异构、半结构化等特点,且缺乏统一的组织和管理,所以如何快速、准确地从海量的信息资源中寻找到自己所需的信息己经成为网络用户需要迫切解决的一大难题。因而基于Web的网络信息的采集与分类便成为人们研究的热点。传统的Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这就使得所采集页面的内容过于杂乱,大大消耗了系统资源和网络资源。这就需要采用有效的采集方法以减少采集网页的杂乱和重复等情况的发生。如何在较大程度上解决信息杂乱无章的现象,并方便用户准确地定位所需要的信息,仅靠人工的方式来分类是不切实际的。因此,网页自动分类是组织和管理信息的有效手段。这也是本文研究的一个重要内容。本文首先介绍了课题背景、研究意义和国内外的研究现状,阐述了网页采集和网页分类的相关理论、主要技术和算法,包括网页爬虫技术、网页去重技术、中文分词技术、特征提取技术、网页分类技术等。在此基础上,设计了网页信息智能采集与分类系统,本系统主要包括信息采集和信息分类两部分。信息采集部分,主要采用了基于主题的广度优先策略算法的网络爬虫和基于规则模板的网页信息抽取方法,把自由或者半结构化的数据转换成结构化的数据,同时采用基于数据库的信息排重和发布排重方法对信息进行排重。信息分类部分,根据用户的需求,通过采用分词和特征提取等技术相结合的SVM算法对信息进行分类,为用户提供全方位的信息服务。
其他文献
案例 “打造中国并购财务顾问第一品牌”,2005年初,北京和君创业咨询有限公司总裁何劲松激情澎湃。当时,他刚离开国泰君安收购兼并总部副总经理的位置,率领一帮骨干,进入和君创业
福特汽车仍然在困境中徘徊。于是,比尔认为也许有人比自己更适合CEO这个职位。
近年来,我国旅游业发展的功能已不再是仅仅赚取外汇或经济收入,而是进入到服务于社会生产生活、增强市场经济发展活力、满足人民日益增长的物质文化需求、促进国际交流合作、
某县城坐落于二叠系下统茅口组厚层灰岩上,喀斯特发育,属复杂喀斯特场地。在建设适宜性评估勘察中应用地下水系统分析方法,解决了复杂喀斯特场地适宜性分区问题,并作出了客观
随着城市经济和工业的不断发展,城市的用电量不断提高,对电网的规划和设计要求也不断提升.本文围绕城市 10kv配电网规划进行分析,探讨其建设意义和应对方法,以期保障城市生活
他总是那样特立独行:当人们推崇某一事物时,人们总能听到他激烈的批判;他会一个星期至少工作80个小时,他也酷爱游艇,甚至在一次比赛中差点丧命。不止这些,私人飞机、豪宅.香车美女也
三星公司总部一片空地上,工人们用榔头狠狠地将数以万计的手机、无绳电话以及打印机砸得粉碎,并且付之一炬。照片中,三星前任CEO李健熙正在现场指挥着这一行动。这里不是三星的
沙沱水电站是乌江梯级贵州省境内的最后一级电站,是国家“西电东送”第2批建设项目之一。坝址位于乌江下游沿河县城上游7km处的狭谷喀斯特地区,枢纽由碾压混凝土重力坝、坝身溢
近年来随着我国经济的快速发展,国家加大了对水利工程的建设投入。本文结合经验对水利工程施工管理的重要性进行了相关阐述,并提出相关的管理对策措施,以供参考。
3月18日,青海省首个再生资源集散市场建设项目通过专家评审,这标志着青海省再生资源回收体系试点建设工作即将跨入一个新阶段。这个项目计划总投资5536.34万元,占地约300亩,建成后