多语言社会化标签聚类及可视化研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:talentcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
协同标注系统(folksonomy)是Web2.0网站中由相互关联的用户、资源和标签组成的注释结果的一个集合,其重要基础是:一个用户可以自定义多个用户标签来描述网络资源。通常的社会化标签系统中标签是用户标注的结果,也有一些网站提供抽取标签的自动推荐功能(本文定义为机器生成标签)。当前的标签生成研究对其内容与社会化属性的结合研究仍不够深入。标签的个性化和模糊化特征使得社会化标签系统中存在大量无用、冗余以及语义不明确的标签。同时,标签在Web文本的聚类方面的应用多为单语言Web文本聚类且只把标签作为聚类的补充。针对以上问题,本文以多语言的社会化标签聚类及可视化为研究目标,从社会化标签提取、聚类与可视化以及社会化标签在文本聚类中的应用等几个方面进行了研究。具体研究内容包括如下三个方面:首先,在社会化标签属性的研究中,本文将标签分为两类,用户标注标签和机器抽取标签,并分别对结合内容属性与社会化属性的两类标签的聚类结果进行分析与讨论。实验结果表明内容与用户特征的结合能够在用户分类的情况下能够提高标签聚类结果,满足对用户的个性化标签聚类结果的需要。’其次,在多语言标签聚类与可视化研究中,本文采用更全面的标签特征抽取方法,即通过内容与社会化属性的结合来提高抽取标签的质量,结合用户标注标签,优化最终的标签聚类效果,并对网络资源进行多语言标签映射,并实现其可视化。实验结果表明对于平行语料的两种多语言标签聚类方法,单语言二次聚类结果优于混合标签的一次聚类结果。平行语料的多语言标签聚类结果优于可比语料基于双语词典映射的多语言标签聚类结果。最后,在社会化标签的应用研究中,本文针对传统文本聚类的不足,将社会化标签引入到文本聚类中。比较基于文本内容、基于用户标签及不同的加权算法的结合,分析不同语言文本聚类结果的差异,实验结果表明选用不同的特征抽取方法和不同的加权方法中的文本聚类结果表现不同。在Web文本聚类中,内容特征与社会化特征的结合能够对文本聚类起到改善作用,应重视社会化特征在Web文本聚类中的作用和意义。另外通过机器翻译和二次聚类的方法,得到多语言文本的聚类结果。通过以上三个方面的研究,本文基本实现了多语言社会化标签聚类及可视化,该研究对在多语言网站上的标签聚类及应用研究具有参考价值。
其他文献
本文从总体情况、组织效能满意度、薪酬管理满意度、绩效管理满意度、培训与开发满意度、企文化建设满意度等六个维度进行问卷调查,找出员工满意度存在的问题、分析原因,并提
针对传统评估方法存在的模型精度低、结构复杂、无法进行实时动态威胁评估等问题,提出了一种基于最小二乘支持向量机(LSSVM)的空战目标威胁评估方法。首先,对空战特征数据进
冰片为常用中药,中医认为其作用特点是"独行则势弱,佐使则有功",本文通过对冰片在抗菌抗炎止痛、促进血脑屏障开放、保护脑缺血、诱导肝微粒体酶等方面药理和临床作用的文献
成人still病是一种少见的、病因不明的系统性炎性疾病,因无特异性诊断方法,误诊率较高。本文列举2个病例并结合文献探讨成人still病的诊断和治疗方法。
首先,对企业核心竞争力以及知识管理的相关概念进行了梳理,在此基础上从企业核心竞争力及知识管理的特有属性为切入点探究了知识管理对核心竞争力的作用机制,研究发现:知识管
近年来,四川省高职院校图书馆网络环境的形成和网络信息资源的迅速增长,带给高职院校图书馆的是更多的发展机遇和不断的挑战。四川省高职院校图书馆必须要深入了解网络环境下
近年来,黄褐斑患者越来越多,黄褐斑的防治工作面临着很大的压力与挑战。本文根据国家卫生部保健食品检验与评价技术规范,对自制的茶多酚芦荟苷复合制剂的安全毒理学评价和祛
1989年正值我国改革开放政策实施十周年,经济的对外开放带动了中外文化的交流。第七届全国美术展品展览,是我国美术发展史上一个重要的里程碑,是继第六届全国美展之后美术创作、
蒙古高原是亚欧大陆游牧民族的摇篮,孕育了伟大的草原游牧文明。蒙古是草原游牧文明的集大成者,其城市源于以斡耳朵为中心的古列延社会集团构成的车帐城市形态。成吉思汗建立
目的探讨复方玄驹胶囊对精索静脉曲张术后精液质量的影响。方法对45例精索静脉曲张不育症患者行精索静脉高位结扎术,术后给予复方玄驹胶囊;分析患者精液质量变化,评价术后给