社会标注可信度评价方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:b110701007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0的主要特点是用户创造内容。社会标注系统因为具有入门低、操作灵活、简单易用等优点而逐渐成为Web2.0环境下的最热门应用。社会标注技术有助于提高信息检索的质量,使用户能更好地从海量Web资源中找出自己感兴趣的信息以及发现新的网络资源。社会标注体现的是标签的社会性,它是一种大众智慧的体现。然而,由于社会标注属于大众分类,用户标注行为的随意性以及不准确性造成了标签的质量(即标签的可信度)参差不齐,这一缺点削弱了标签在信息组织、分享、检索和发现中的作用。为了使社会标注能更好地服务于信息检索的相关研究及应用,提出了一种基于统计方法的社会标注可信度评价模型。首先分析并量化影响标签可信度的三个因素:标注用户的影响力、文档间的语义相似度、标签间的语义相似度。通过计算用户间具有相同标注行为的频度来量化用户的影响力;在向量空间模型的基础之上把文档表示成关键词向量,通过计算文档向量间的距离得出文档间的语义相似度;将标签表示成由用户信息以及资源信息两者组成的向量,向量间的距离即可视为标签间的语义相似度。在此基础上,建立一个融合上述影响因素的量化模型来计算标签的可信度。使用了三种方法来验证模型的准确性:标签排序、基于标签的文本分类以及基于标签的文本聚类。相比其它的标签排序方法,基于可信度大小的标签排序最接近人工排序结果。引入标签可信度量化模型的文本分类以及文本聚类聚类都能达到较好的效果。实验结果表明,本文提出的标签可信度评价模型是准确的,能有效提高基于标签的相关应用的效果。
其他文献
随着计算机的广泛使用与网络技术的深入发展,人们更多的将各种资料信息以电子文本的形式存储于计算机及网络空间中。这些文本信息的大规模增长,导致人们对信息的过滤、筛选出
办公自动化系统是利用计算机技术提高办公的效率,进而实现办公自动化处理的系统。它采用互联网技术,基于工作流的定义,使企业内部人员方便快捷地实现信息的共享,高效地协同工
无线通信技术和嵌入式技术的发展极大带动了灵巧对象(Smart Things)的发展和应用。由于灵巧对象体积小、能耗少,具有一定的通信和计算能力,能够组网,成为物联网的一部分,其应用越来
每一个网站(又称为数据源)都会提供一些数据值集合,用来反映事实信息,例如一个网上书店,它会提供很多书的信息,包括作者、书名、出版社和书的价格等。那么这些数据值就对应着一个集
内存资源是虚拟化技术管理的重要资源之一,对虚拟化系统的性能影响很大。目前,虚拟机在启动之前都会配置一个内存上限,该内存上限在虚拟机运行过程中不可更改。然而,虚拟机上运行
目前,越来越多的混合应用出现在了各大Android应用市场中,根据IDC的数据统计显示,截至2016年第三季度,Android占据了智能手机操作系统份额的86.8%。这些应用包含了 Android原
畜产品溯源系统的建立是保证畜产品质量的有效做法,它的建立与运行一般会涉及到RFID技术,用电子标签附在要识别的牲畜上记录牲畜从生产到消费各环节的信息,用RFID阅读器来读
随着无线通讯技术以及位置服务的发展,移动对象的数据管理逐渐成为研究热点。近年来,国内外一些学者针对不同实际应用,在基于R树的移动对象索引方面进行了大量的研究,提出了一系
随着计算机交互、多媒体等信息技术的蓬勃发展,情感处理目前已经成为人工智能领域内一个新的研究热点。音乐作为多媒体技术的重要组成部分,对于计算机音乐情感信息的分析受到了
互联网的发展个我们带来更多资讯的同时,也使得程序设计类课程中的抄袭行为更加普遍。程序设计是高等院校计算机专业教学中不可或缺的实践与教学环节,程序设计语言类别也是多种