中文Blog网页识别与内容抽取研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cnmeim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Blog作为一种全新的网络信息发布模式,已经深入到每一个网络用户的生活中。它提供了一种个人信息的发布、交流和沟通的平台。Blog的迅速发展已经构成了一个巨大的网络资源,如何从这个大规模的数据资源中挖掘出有价值的信息变得刻不容缓。本文的研究就是基于这样的背景产生的。本文将对Blog这一强大的发布模式做深入的探讨和研究。本文通过比较Blog网页和普通Web页面,提取Blog网页的特征,从网络爬行器下载得到的网页识别出Blog网页来,并对Blog网页相关内容进行抽取。本文首先从普通Web网页的特点开始分析,然后过渡到Blog网页的特点分析,比较Blog网页区别与普通Web网页的特点,根据这些特点识别出Blog网页。本文在长期深入观察、统计和分析Blog网页的基础上,提出了一些基础性的定义,基于这些定义和概念对Blog做了深入的阐述。首次提出了Blog网页的分类方法,即广义Blog网页和狭义Blog网页分类方法。提出了一种识别广义Blog网页的方法,并得到了很好的实验效果。在广义Blog网页识别得到良好效果的前提下,进行了去除Blog导航网页的实验,对已有方法进行了比较和分析,并提出了新的方法。针对Blog空间的数据挖掘需要Blog的正文日志内容、评论等关键信息和统计信息作为依据。本文以数十个大型中文Blog网站为来源,对Blog的关键内容进行了抽取,实验结果显示,效果良好。本文的研究成果在于对Blog网页进行深入的分析。提出了Blog网页分类方法,并根据此方法做了相关实验,得到较好的结果。完成相关系统,实现了Blog网页内容的抽取,为Blog内容挖掘做了良好的铺垫工作。
其他文献
无线Ad Hoc网是由一组带有无线通信装置的移动终端节点组成的一个多跳的、临时的、无中心、自组织的网络,可以随时随地快速构建起来的移动通信网络,网络中的每个终端可以自由
随着Intranet/Internet的迅猛发展,计算机技术在企业的生产、管理和商务等方面已经得到越来越广泛和深入的应用。面向服务的体系结构SOA、动态电子商务DEB和企业应用系统集成
计算机图形学是一个最令人兴奋的且发展最快的计算机领域,它是研究用计算机来输入、表示、处理和输出图形的原理、算法及系统的一门新兴学科,其内容非常丰富。特别是近年来计
稀疏规则库广泛的存在于模糊推理系统中。当出现稀疏模糊规则库时,采用传统的模糊推理方法是得不到任何结果的。由此,产生了模糊插值推理方法。目前,已经存有很多的插值推理
目前,Web服务已经成为一种十分流行的web应用技术。Web应用的一个重要基础就是根据请求者的提出的需求发现合适的Web服务。由于网络世界的复杂性,Web服务属性可以分为确定性属
随着网格应用的不断拓展,能否为用户提供可靠的、有保障的服务质量(QoS)将成为衡量一个网格应用是否成功的重要因素。服务水平协议(SLA)是为保证QoS,依据标准化规范在服务提
学位
分布式对象技术随着网络和面向对象技术的发展而不断完善,但客户对分布式对象系统的性能也提出了更高的要求。本文从软件设计入手,找到适合多层分布式对象系统优化性能的设计
三维建模是计算机视觉和计算机图形学领域中的一个基本问题,人脸借助其特有的普遍性和易用性成为众多先进三维建模算法的实验平台。但是由于人脸的复杂性、易变形,建立逼真的
随着网络技术的迅速发展,Internet上不断涌现出如IP电话、视频会议、远程教学等多媒体业务,网络环境呈现前所未有的多元化、复杂化。原有的尽力而为的服务已无法满足各种应用