面向主题的博客资源挖掘关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liuxc1112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,用户在互联网上发布信息的门槛变得越来越低,使得互联网上的信息量变得极其庞大。博客作为一种典型的Web2.0应用,以其简单、方便的使用方式吸引着越来越多的用户。在由博客所构成的博客空间中,由于用户可以根据兴趣发表文章记录自己的观点,阅读他人的文章并给出评论,使得博客空间中蕴含了大量的关于主题(或者兴趣)的信息。在这种情况下,用户从这些海量数据中获取自己想要的信息是非常困难的。因此,如何从这些海量博客数据中挖掘出对用户有价值的信息就变得十分重要。为此,本文研究了三个问题,主要研究内容包括以下几个方面:第一,本文在分析了现有关键词抽取算法依赖于外部资源和具体文本格式的局限性之后,提出了一种基于主题模型Latent Dirichlet Allocation(LDA)的博文关键词抽取算法,并通过与TFIDF和层次隐马尔科夫模型(HierarchicalHidden Markov Model, HHMM)的对比实验对该算法的有效性进行了验证,最后利用皮尔逊相关系数从关键词权重与其词频之间的线性相关程度这一角度分析了算法优越性的原因。第二,本文通过对四种典型聚类算法K-means、K-means++、AffinityPropagation和Markov Cluster的对比分析,优选出更适合于本文具体应用的算法Markov Cluster;并在此基础上,设计了一个三层算法用于对博客文章进行主题聚类,自动生成聚类结果的描述信息;最后通过对比实验对算法的有效性和稳定性进行了验证。第三,本文在传统链接分析的基础上,结合博客空间的具体特征——评论和转载现象,提出了一种融合评论和正文相似性信息的博客排序算法,并通过在两个真实博客数据集上的对比实验对该算法的有效性和稳定性进行了验证。结果显示,本文所提出的算法在Normalized Discounted Cumulative Gain(NDCG)指标下,与传统链接分析方法相比,分别获得了17%和29%的性能提升,同时具有比较好的稳定性。
其他文献
随着互联网上的信息量越来越大,传统的通用搜索引擎对信息的查找、索引越发显得力不从心,逐渐显露出“准确性差、时效性差、覆盖率低”等弊端。通用搜索引擎立意于满足用户的
无线多媒体传感器网络是一种追求感知信息类型多样化的新型传感器网络,通过使用多媒体传感器节点,它能采集音频、视频、图像等多媒体信息。由于存在多种类型的数据分组,MAC协议
近年来,随着在线社会网络的不断发展和计算机系统处理能力的不断提高,社会网络分析和挖掘成为热门的研究领域。大部分对社会网络的研究集中在只有正链接的网络,本文研究对象
随着网络对传统出版物和媒体的冲击,用户对于新闻浏览习惯发生了改变,越来越多的人养成了每天在网络上浏览新闻的习惯。本文研究如何高效、准确地从海量的新闻和新闻评论中找
近年来,云计算技术在学术界和工业界都成为关注的热点。大型数据中心提供的服务,尤其是Web应用,以及使用的各种虚拟化技术构成了云计算的基础架构。数据中心中通常拥有大量的
数据存储策略的研究是无线传感器网络有关数据管理与处理的一项重要研究内容。其本质就是尽可能有效地利用有限的存储空间和有限的节点能量,将感知数据存储在网络中的某个确
逆向工程是近年来发展非常迅速的一个研究领域,应用领域非常广泛,是CAD/CAM领域缩短产品再设计与制造周期的重要技术之一。而曲面重构问题正是逆向工程中的关键内容。而随着
随着数据规模的不断扩大和用户数量的急剧增加,传统的结构化数据库访问面临的压力越来越大,提高MySQL等结构化数据库的读写性能成了一个亟待解决的问题。Redis内存数据库将所
随着微电子技术、通信技术和嵌入式计算技术的发展与进步,无线传感器网络得到了广泛地应用,并引起了国内外研究人员的的极大关注。为此,本文对无线传感器网络中具有重要意义
随着互联网应用的日渐多样化,在实际的互联网应用中,存在着大量对名人、明星、罪犯、热门图像等特定人脸图像的搜索需求。传统的文本检索具有检索方式单一的局限性以及检索精