论文部分内容阅读
Blog作为一种全新的网络信息发布模式,已经深入到每一个网络用户的生活中。它提供了一种个人信息的发布、交流和沟通的平台。Blog的迅速发展已经构成了一个巨大的网络资源,如何从这个大规模的数据资源中挖掘出有价值的信息变得刻不容缓。本文的研究就是基于这样的背景产生的。本文将对Blog这一强大的发布模式做深入的探讨和研究。本文通过比较Blog网页和普通Web页面,提取Blog网页的特征,从网络爬行器下载得到的网页识别出Blog网页来,并对Blog网页相关内容进行抽取。本文首先从普通Web网页的特点开始分析,然后过渡到Blog网页的特点分析,比较Blog网页区别与普通Web网页的特点,根据这些特点识别出Blog网页。本文在长期深入观察、统计和分析Blog网页的基础上,提出了一些基础性的定义,基于这些定义和概念对Blog做了深入的阐述。首次提出了Blog网页的分类方法,即广义Blog网页和狭义Blog网页分类方法。提出了一种识别广义Blog网页的方法,并得到了很好的实验效果。在广义Blog网页识别得到良好效果的前提下,进行了去除Blog导航网页的实验,对已有方法进行了比较和分析,并提出了新的方法。针对Blog空间的数据挖掘需要Blog的正文日志内容、评论等关键信息和统计信息作为依据。本文以数十个大型中文Blog网站为来源,对Blog的关键内容进行了抽取,实验结果显示,效果良好。本文的研究成果在于对Blog网页进行深入的分析。提出了Blog网页分类方法,并根据此方法做了相关实验,得到较好的结果。完成相关系统,实现了Blog网页内容的抽取,为Blog内容挖掘做了良好的铺垫工作。