论文部分内容阅读
伴随着Web2.0概念的出现和不断发展,互联网新媒体技术的发展进入了一个崭新的阶段。在此基础上,博客作为Web2.0概念下的典型应用,很大程度上推动了整个互联网业的发展。尤其是近几年来,博客作为一种新兴的信息交流技术,其应用范围不断壮大,功能日益完善,在现阶段是一种高速发展且具有巨大潜力的新型互联网应用。在具有其它信息交互工具特点的同时,博客也有其自身特点。博客涉及的信息非常广泛、内容千差万别,不同博客作者各自阐述的内容具有其自身偏好,另外,博客还具有其自身的半结构化特点。 如何有效地组织、检索和利用丰富的博客资源,挖掘出博客作者的兴趣信息引起了科研界及工商业界的广泛关注。随着博客信息量的飞速增长,博客作者兴趣挖掘面临的问题是,如何通过博客有限的表示信息挖掘出博客潜在的信息,如何从其半结构化特点中挖掘出其结构特征中潜在的信息,同时兴趣过滤也是相关研究的主要内容之一。目前,很多学者针对以上的问题提出了相应的解决方法,但是这些方法还不能充分地利用博客的结构特点信息。 因此,针对博客作者兴趣挖掘中存在的问题,本文提出了短文本分类算法、多特征融合分类算法和兴趣过滤算法来解决博客作者兴趣挖掘的问题,主要的研究内容概括为: (1)短文本分类算法。本文采用短文本分类的算法对博客的标题、标签、自定义类别等文本长度较短的特征进行分类,在短文本分类算法中利用词典型本体其中的上下位关系对短文本进行特征扩展,丰富其文本信息,对其进行正确的分类。 (2)多特征融合分类算法。本文将对博客作者的兴趣挖掘问题看作一个分类问题,采用多特征融合分类技术,以博客的标题、正文、标签、自定义类别等信息为特征分别进行文本分类,并将各特征分类的结果进行融合汇总,最终挖掘出博客作者的兴趣爱好。 (3)兴趣过滤方法。本文最后通过兴趣过滤判别算法,过滤掉与兴趣无关的博客文章,从而再次提高兴趣挖掘的准确度。 本课题的实验证明,使用特征融合算法进行文本分类可以达到一种较为理想的文本分类状态。通过短文本分类方法,进一步完善了多特征融合的方法,在短文本分类过程中通过特征扩展算法丰富了博客的标题、标签、自定义类别等长度较短的文本信息,从而最终得到准确的文本分类。另外通过兴趣过滤算法更加准确地挖掘了博客用户的兴趣爱好,便于互惠信息的推广。 该课题的研究具有多方面的应用价值,如在个性化搜索,新闻或者广告的自动推荐以及用户社区的构建等互联网研究与应用领域的应用等。此外,该课题对于促进Web文本分类方法的研究,博客信息挖掘及相关信息领域的应用也具有十分重要的意义。