基于树状标签的文本组织系统的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:cheng2008YING
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,Web上出现了大规模的用户和数据。对Web2.0时代海量信息进行有效的组织和分析,可以为用户提供更好的服务,具有非常重要的意义。树状标签系统就是对这些信息进行分析和组织的有效方法之一。树状标签是一种用树形结构的标签来组织文本信息的系统。标签是一组与文本信息相关性很强的关键字,用来描述文本的类别、主题等信息,而树状的结构则对标签之间的语义依赖关系进行相应的组织和构建。  本文的研究内容主要有以下几个方面:首先对合作标签网Delicious中的数据进行分析,研究了标签在分布上的一些特性,揭示了标签和一些开放性词典的关系,进而提出了构建类别标签树和内容标签树的方法以及将文本映射到类别标签树和内容标签树的方法,最后设计并实现了一种按照树状标签来组织文本信息的检索系统。具体而言,类别标签树和内容标签树分别由ODP以及WordNet和Wikipedia构建而成。ODP是开放词典系统的简称,是目前网上最大的人工编制的分类检索系统。本文对ODP的结构进行了分析,通过对其进行裁剪和微调,实现了类别标签树的构建,同时研究了将文本映射到类别标签树的方法。研究主要考虑了类别标签树的构建,非层次分类、层次分类在效果上的差别,贝叶斯分类器及其改进等问题。WorkiNet是一个将WordNet和Wikipedia结合而成的树状语义词典,它同时具备了WordNet科学合理的语义层次结构以及Wikipedia丰富且时效性高的信息,兼具二者之长。本文使用WorkiNet作为内容标签树,主要研究了内容标签树的构建方法,基于语义相似度的匹配,以及将文本映射到内容标签树的方法等问题。  本文的研究具有以下意义:首先,本文提出的算法可以对文本信息进行标签标注,使用标签可以准确的对文本信息进行描述,提高文本分析的效果。其次,本文提出了构建内容标签树和类别标签树的方法,对标签之间的语义依赖关系进行了组织,便于对文本信息进行主题分析。再次,本文提供了将文本信息映射到树状标签系统的方法,使得该系统可以方便的移植到其他Web2.0应用中去。
其他文献
随着计算机和网络技术的不断发展,XML技术的应用也不断扩展。该技术不仅可以用于银行之间进行数据交换、证券公司对其上市公司相关的数据进行统计、图书馆对其馆藏书目进行查
随着WLANs的发展和普及,其用户数量日益增多,而网络资源十分有限。为了给用户提供更好的网络接入服务,优化用户接入机制成为近年来的一个研究热点。本课题的研究目标是:优化用
随着互联网信息量的飞速增长,快速准确的从浩瀚的数据海洋中找到需要的信息显得非常重要。搜索引擎为互联网用户提供了便捷的查询服务,随后出现的一系列Wiki系统提供了对某些特
联盟是多Agent系统中的一种经典组织形式,Agent间通过形成联盟达到提高任务求解能力、获取更多收益的目的。随着计算机技术的发展和应用环境的变化,联盟所面对的任务往往处于动
随着互联网的飞速发展,数据呈现爆炸性增长的趋势,云计算平台逐渐成为一种大规模数据存储和管理的解决方案。目前工业界有许多企业开始提供各种云数据管理服务,但其功能和性能都
目前世界大部分国家都面临能源短缺,各国对能源尤其新能源发展给予很大重视,我国对新能源的研究与开发已取得了一定进展,但未达到预期的作用,其中最薄弱、最关键的问题是对农村新
XML(Extensible Makeup Language,可扩展标记语言)以其结构化、内容与应用分离、自描述性、扩展性等优点广泛应用于数据交换、数据集成和(半)结构化数据管理等。随着XML技术的发展
近年来,标签已经成为一种非常灵活和重要的手段来分享和分类网络资源,因为这些用户标签可以更加接近用户的理解和判断,所以这些用户标签可以更加准确地描述用户的兴趣偏好,而用户
多Agent技术引入信息工程质量监理领域,将使信息工程质量监理更好地适应网络环境的多样性和多态性,使信息工程监理进入智能化时代。本文旨在通过对多Agent在信息工程监理质量控
随着计算机、通信、传感器和网络技术的发展与广泛应用,一种新型的分布式、智能化、网络化的控制系统应运而生—网络控制系统。它是利用专用或通用的通信网络连接构成闭环的控