社会标签的规范控制及其应用研究——以豆瓣中文图书标签为例

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:a83312259
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会标签类似于传统信息资源组织中的关键词或元数据,它产生于网络环境,创建于大众用户,其中蕴含了丰富的语义信息,将其运用到文本的自动分类中具有一定的现实意义,然而,由于社会标签在被添加时的过度自由与随意,使得社会标签的质量良莠不齐,如标签缺乏语义层次,标签的同义、近义关系频现,标签词间关系不明确等,这些问题都有可能对基于社会标签的中文图书的自动分类应用带来消极影响。因此本文旨在对中文图书标签的特征分析的基础上,提出一种“内核受控,外壳非控”的分类模式,即通过建立“社会标签—主题词”的概念空间模型,实现利用主题词对社会标签的规范控制,并通过实验验证了该方法的合理性和可行性。  本文具体的工作内容主要有以下4点:  (1)对社会标签及其相关知识的研究现状进行总结,并详细论述有关社会标签规范控制的国内外研究进展,以及社会标签的具体应用研究动态等。  (2)对中文图书的社会标签的特征进行分析,通过对图书标签的词长分布、使用量分布、词频分布、以及收词量、平均词长、类平均标引深度等指标的表现,证明中文图书标签具有一般自然语言所具有的特点,为将自然语言的分析处理方法应用到社会标签中的可行性提供了理论依据,同时也提出可以采取建立“社会标签—主题词”概念空间模型的方法实现对社会标签的质量控制。  (3)根据中文图书标签的特点,引入概念空间的思想,利用基于统计的关联算法建立中文图书的“社会标签—主题词”的概念空间模型,从而实现了利用主题词对中文图书的社会标签进行规范控制的目的。  (4)根据情报语言学原理提出了基于概念空间的“内核受控,外壳非控”的中文图书社会标签分类模式,即通过标签系统的后台控制,达到对社会标签的规范控制,从而实现基于社会标签的中文图书的自动分类。  本文的创新点主要有以下2个方面:  (1)通过对中文图书社会标签特点的调查分析,证实了社会标签具有自然语言的特点,为将自然语言的分析处理方法应用到社会标签中的可行性提供了理论依据,从而引入概念空间控制方法,建立中文图书的“社会标签—主题词”概念空间模型,实现对社会标签的规范控制。  (2)本文提出面向中文图书社会标签的“内核受控,外壳非控”的分类模式,实现了标签系统内部控制标签质量,外部保留用户操作习惯的文本分类思想。
其他文献
为了使图书漂流对全民阅读产生更为积极的作用,对国内8个较具代表性的图书漂流网站进行调查分析,其发展现状主要表现为:图书漂流形式多样化、参与主体趋向多元化、注册会员人
探讨《中图法》分类体系XML存储的规则,基于《中图法》分类体系的XML存储,利用Java技术将其解析为DOM树,通过遍历DOM树获取类目的大小。解释树图及嵌套树图的含义,利用有序树
指出《中国文献编目规则(第二版)》中期刊版本著录相关规定存在的主要问题。在对“版”的多种含意、期刊版本说明的著录选择对书目检索的影响、期刊版本说明著录的实践选择、
自从1999年“政府上网”工程以来,我国政府网站发展十分迅速。政府网站是电子政务的重要组成部分,是政府信息公开的窗口,是公民在线办事的集成平台,是实现政府与社会公众沟通互动
从企业需求及特色数据库自身发展需要分析面向企业开展特色数据库服务推广的必要性,根据企业特点提出包括对目标用户进行定位和研究、实施符合企业特点的服务推广方式方法,解
世纪之交启动的新课程改革,使得每一位教师都面临着新知识、新观念、新教育方式的挑战。美国教育心理学家布鲁纳说:"探究是教学的生命线。"在实施新课程改革的今天,将探究性学习引
本文从三个视角探讨了企业文化与企业竞争力关系的理论基础。在此基础上,构建研究框架,提出了本文的两大研究内容为:一是验证优秀企业文化对企业竞争力有显著影响;二是探讨哪些
王源媛是武汉华中科技大学附属同济医院神经内科护士,1月8日晚,她收到了单位发布的信息:“为了抗击不明原因肺炎,医院发热门诊急需增援.”没和家人商量,年轻的王源媛偷偷报了
期刊
未来教育的核心理念,就是引领学生掌握一种更个性化、更便捷、更智能、更迭代化的思维方式.数学课程要对接未来教育就要体现这种思维方式.用“游戏数学”对接未来教育,就是一
期刊
近年来,少年儿童的教育问题引起了社会各界的广泛关注,少儿图书馆作为以少年儿童为主要服务对象的公益性社会教育机构,被誉为少年儿童的“第二课堂”,对少年儿童的阅读指导和阅读