论文部分内容阅读
伴随着blog注册数量的日益增多,blog以极快的速度融入到人们的社会生活中,并随之带来一系列新的应用,与传统网页相比,blog自身有着独特的信息特点,如何对blog中的信息进行针对性的检索和更深层次的挖掘利用,已经成为当前互联网应用研究中的热点问题。本文旨在提取blog的主题特征,即根据blog页面数据预测blog感兴趣的信息所属的主题。Blog主题标注可以归结到blog主题分类问题,围绕分类中的两个关键问题,即分类目录的构建和分类算法的实现,文本主要的研究工作包括:1)本文提出了基于K-Means聚类的Blog主题层次目录构建算法。本文首先考察了多个blog空间和网站分类目录的层次结构,研究发现,这些目录层次都存在一定的不足,不能符合用户的需求。针对上述问题,本文提出了基于K-Means聚类的Blog主题层次目录构建算法,该算法能够利用腾讯新闻网站的样本集构建Blog主题层次目录以及相应的语料库,有效地解决了分类器训练前主题类别的确定和训练集的搜集问题。2)本文提出了基于多分类器的blog主题分类算法。Blog的主题特征是通过blog在一段时间内所发表的日志内容来体现的,要提取blog感兴趣的主题信息必须先对该日志集合进行主题分类。Blog日志不规范性和随意性的特点会干扰分类器对日志主题的确定,针对这个问题,本文引入了多分类器联合的方法。实验证明,多分类器可以有效地识别出主题不明确的日志样本,本文对这些样本做单独的处理,为其确定一个较为合理的主题。基于日志主题分类的结果,本文提出了基于多分类器的blog主题分类算法,该算法能快速提取blog的主题特征,本文通过实验验证了该算法的有效性。基于上述研究成果,本文设计并实现了一个层次式的blog主题标注原型系统,包括数据的获取、解析、算法实现等模块,为进行相关的实验和研究提供了一个基础平台。