面向特定分类体系的标签推荐算法研究

来源 :东北大学 | 被引量 : 3次 | 上传用户:xiaohan52132500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的迅速发展,用户越来越多地参与到互联网的信息交互中,形成了以标签为代表的社会化标记等广泛应用。尽管围绕着标签应用进行的研究日益增多,标签应用的性能提升却遇到了瓶颈。从描述资源和分享信息的角度来讲,标签标注的准确性意义重大。在标签应用越来越广泛的今天,如何为资源自动生成准确的标签则成为了非常值得研究的课题。本文在分析当今标签研究领域特点和问题的基础上,以博客标签为研究点,提出了从不同标签类别的角度为资源自动推荐标签的方法。这一方法本着设计分类体系、对标签分类、判断博文缺失标签类别、对缺失类别进行标签推荐这一思路完成最终研究目的。首先从描述资源全面性考虑为标签设计特定分类体系,并以此分类体系作为研究基础。通过综合运用正则表达式抽取、词典识别、语义区分度计算等方式实现将博文标签由简单到复杂、逐类区分的一种快速高效的自动分类算法,将博文标签分类到本文设计的标签分类体系。为了实现类别的细化和主题含义区分,本文考察标签层次概念关系、标签间共现分布差异,并借助同层概念词典,将主题类标签细化为三层主题含义,从而为后续推荐精确的标签提供依据。其次通过从发布者及使用者两个角度考察单类别标签的分布规律以及多标签类别间关联分布规律,找出现有标签类别的相关性,并据此给出一个发现博文标签缺失类别的方法。最后根据博文缺失的类别为该类别推荐标签,并针对不同的推荐问题,提出基于文本相似度、基于文本自身属性以及基于层次关系这三种标签推荐方法。本文将通过实验验证标签分类算法的高速性及有效性,并通过实验过程获取标签分层过程的最佳阈值。对于标签推荐方法,本文将会从推荐标签的质量及推荐后的应用价值两方面给出实验论证,证明标签推荐方法有助于帮助用户生成更准确的标签,形成更全面的资源描述及实现更广泛的应用价值。
其他文献
汉语自动分词是中文信息处理中的重要环节。基于统计的汉语自动分词方法存在训练数据稀疏的问题,而人工标注工作量过大又制约着语料库规模的进一步扩大。 本文在基于统计的
Internet和移动通信是目前信息技术的两大热点技术,移动互联网正是这两大热点技术的结合,而可移动的个人多媒体通信业务则被认为是未来信息交流的主要特征。本文首先介绍了无线
联机分析处理(OLAP)是一个重要的数据库系统的应用。通常OLAP数据呈现为多维数据立方体。OLAP的查询一般是复杂的,并且如果在原始数据上执行,可能要花费几个小时甚至是几天时间
许多机构和社团(如现代化企业、股票公司、广告公司、Web服务中心等)在每天的日常工作中经常制作和收集大量的数据,从大量存储在网络服务器的访问日志中原始的半结构化数据中挖
金融机构的特殊性质决定了其对数据安全的要求极为严格。但随着Internet和电子商务的迅速发展,以完全封闭性的业务来赢得安全已经不能满足需求,与外界互联并发展网上业务势在必
以工作站机群为代表的网络计算环境是当前并行计算和分布式系统的研究重点之一,解决异构性问题和动态负载平衡是使用机群进行网络并行计算的关键.该文介绍如何使用改进后的遗
该文根据仿真计算与可视化相分离的观点和虚拟现实技术在仿真可视化方面表现出来的优越性,剖析了VRML语言在仿真可视化方面的优点和不足,提出了一系列基于VRML的仿真可视化平
随着电子商务的发展,企业信息处理的数据量越来越大,企业信息门户(EIP)的概念应运而生,它不仅为企业用户提供了统一的应用界面,而且把整个企业所需的数据和应用(包括企业的ERP系
随着电子技术和生产制作工艺的迅速发展,单片机以其高可靠性、高性能价格比,在工业测控系统等领域的应用日益广泛。同时,为了适应现代工业测控系统越来越高的要求,单片机的复杂程
为了克服传统的基于文字检索存在的主观性、低效率等缺点,人们开始强调基于内容的检索技术。考虑到图像信息对于信息获取的重要意义,本文主要研究了基于内容的图像存储(图像数