基于主题图的标签语义挖掘研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:liweibin522
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着flicker、Del.icio.us、豆瓣网等Web2.0网站的普及,一种新型的网络信息分类法——大众分类开始应用到越来越多的网络系统中。大众分类就是由网络用户自发为某信息定义描述一组标签,并根据标签被使用的频次高低进行筛选,选用高频标签作为该信息类名的一种网络信息分类的方法。其优势在于它不仅没有严格的分类标准,而且标引语言不受限制。这种自由随意、方便灵活的分类方式受到网络用户的欢迎,但是,这些特征导致了标签的多样性、模糊性、组织方式的非等级性和词汇之间语义关系缺乏等缺陷,这些缺陷不仅给网络信息资源的组织利用带来了一定的困难,同时还很难适应语义网的要求。主题图(Topic Map)结合了语义网和本体的思想,成为一种新的网络信息组织方法。主题图一般用来表示海量信息中的复杂知识结构,它由三个要素组成,即TAO——Topic(主题)、Association(关联)、Occurrence(资源出处)。主题是主题图中的基本单元,用来表示任何实体、概念或其他东西;关联用来表示主题之间的语义关系;资源出处则用来表示主题相关的信息资源。正是由于主题图的三要素以及三要素之间的关联优势,使得它不但符合标签资源组织中的的标签语义挖掘需求,同时可以在一定程度上解决上述标签信息资源中存在的问题。本文分为六个章节:第一章主要介绍了本文选题的背景和意义,标签、标签语义挖掘和标签主题图的研究现状;同时明确了本文的研究内容和研究方法。第二章阐明了标签与主题图的概念、基本特点,分析了大众分类中的标签语义研究存在的一些不足,同时将主题图技术与其他的信息组织方式进行比较,说明主题图的优势特征,为使用主题图技术进行标签语义挖掘做铺垫。第三章首先探讨标签语义挖掘分析和主题图应用于标签语义集成、语义检索、知识导航的可行性,分析标签与主题图结合的可行性,接下来进一步提出标签主题图的结合机制。第四章提出了基于主题图的标签语义挖掘模型,对模型的主要功能模块进行了详细的解释。介绍模型中标签主题图资源库和主题库的建立方法,然后说明标签主题图应用于信息知识服务中的具体应用模块。第五章以“豆瓣电影”中的标签为实例,使用Ontopia环境中主题图相关工具进行标签主题图的生成、本体编辑、页面浏览、可视化导航等操作。探讨中文标签主题图的构建,实现关联标签的聚合,将标签间的隐性语义关系显性化。第六章总结归纳本文所取得的成果和存在的不足,提出下一步的研究思路。
其他文献
<正> 一、引言 "肥水"这两个字,是現在东肥河和南肥河的总称。东肥河又称金城河,西北流經寿县入淮河。南肥河"水經注"名力施水,俗称金斗河,东南流經合肥入巢湖。由于古代"江
<正>1我国猪场刚地弓形体感染严重我国规模化猪场弓形体病流行严重。江涛(2007)在湖北调查规模化猪场弓形体病流行情况,发现猪场弓形体血清阳性率在9.5%~80%之间,平均为35.2%,
在生源问题上,中职录取的学生相比普高而言,整体水平偏低,学生在语文这一学科,听说读写各方面都有较大亟待提升的空间。而他们面对作文的时候往往会显得更为苦恼。很多教师在作文
高分四号卫星是我国发射的新型高分辨率对地观测静止轨道卫星,在大气环境遥感监测方面有着广阔的前景。本文针对高分四号卫星的数据特点,以当前较为成熟的暗目标法为基础,利
基于全国均匀分布的210个北斗地基增强基准站观测数据,提出基于非差非组合精密单点方法获取空间相关的延迟误差及残差,研究利用反距离加权法、克里金插值法以及球谐函数法建
介绍了大宇制纸股份有限公司铜版原纸产能提高之后,纸机供浆系统存在的问题。通过对各条供浆线的相应改造,提高了供浆能力,改善了供浆质量及抄纸机的作业率,提高了成纸质量。