论文部分内容阅读
近年来,随着flicker、Del.icio.us、豆瓣网等Web2.0网站的普及,一种新型的网络信息分类法——大众分类开始应用到越来越多的网络系统中。大众分类就是由网络用户自发为某信息定义描述一组标签,并根据标签被使用的频次高低进行筛选,选用高频标签作为该信息类名的一种网络信息分类的方法。其优势在于它不仅没有严格的分类标准,而且标引语言不受限制。这种自由随意、方便灵活的分类方式受到网络用户的欢迎,但是,这些特征导致了标签的多样性、模糊性、组织方式的非等级性和词汇之间语义关系缺乏等缺陷,这些缺陷不仅给网络信息资源的组织利用带来了一定的困难,同时还很难适应语义网的要求。主题图(Topic Map)结合了语义网和本体的思想,成为一种新的网络信息组织方法。主题图一般用来表示海量信息中的复杂知识结构,它由三个要素组成,即TAO——Topic(主题)、Association(关联)、Occurrence(资源出处)。主题是主题图中的基本单元,用来表示任何实体、概念或其他东西;关联用来表示主题之间的语义关系;资源出处则用来表示主题相关的信息资源。正是由于主题图的三要素以及三要素之间的关联优势,使得它不但符合标签资源组织中的的标签语义挖掘需求,同时可以在一定程度上解决上述标签信息资源中存在的问题。本文分为六个章节:第一章主要介绍了本文选题的背景和意义,标签、标签语义挖掘和标签主题图的研究现状;同时明确了本文的研究内容和研究方法。第二章阐明了标签与主题图的概念、基本特点,分析了大众分类中的标签语义研究存在的一些不足,同时将主题图技术与其他的信息组织方式进行比较,说明主题图的优势特征,为使用主题图技术进行标签语义挖掘做铺垫。第三章首先探讨标签语义挖掘分析和主题图应用于标签语义集成、语义检索、知识导航的可行性,分析标签与主题图结合的可行性,接下来进一步提出标签主题图的结合机制。第四章提出了基于主题图的标签语义挖掘模型,对模型的主要功能模块进行了详细的解释。介绍模型中标签主题图资源库和主题库的建立方法,然后说明标签主题图应用于信息知识服务中的具体应用模块。第五章以“豆瓣电影”中的标签为实例,使用Ontopia环境中主题图相关工具进行标签主题图的生成、本体编辑、页面浏览、可视化导航等操作。探讨中文标签主题图的构建,实现关联标签的聚合,将标签间的隐性语义关系显性化。第六章总结归纳本文所取得的成果和存在的不足,提出下一步的研究思路。