论文部分内容阅读
社会标签类似于传统信息资源组织中的关键词或元数据,它产生于网络环境,创建于大众用户,其中蕴含了丰富的语义信息,将其运用到文本的自动分类中具有一定的现实意义,然而,由于社会标签在被添加时的过度自由与随意,使得社会标签的质量良莠不齐,如标签缺乏语义层次,标签的同义、近义关系频现,标签词间关系不明确等,这些问题都有可能对基于社会标签的中文图书的自动分类应用带来消极影响。因此本文旨在对中文图书标签的特征分析的基础上,提出一种“内核受控,外壳非控”的分类模式,即通过建立“社会标签—主题词”的概念空间模型,实现利用主题词对社会标签的规范控制,并通过实验验证了该方法的合理性和可行性。 本文具体的工作内容主要有以下4点: (1)对社会标签及其相关知识的研究现状进行总结,并详细论述有关社会标签规范控制的国内外研究进展,以及社会标签的具体应用研究动态等。 (2)对中文图书的社会标签的特征进行分析,通过对图书标签的词长分布、使用量分布、词频分布、以及收词量、平均词长、类平均标引深度等指标的表现,证明中文图书标签具有一般自然语言所具有的特点,为将自然语言的分析处理方法应用到社会标签中的可行性提供了理论依据,同时也提出可以采取建立“社会标签—主题词”概念空间模型的方法实现对社会标签的质量控制。 (3)根据中文图书标签的特点,引入概念空间的思想,利用基于统计的关联算法建立中文图书的“社会标签—主题词”的概念空间模型,从而实现了利用主题词对中文图书的社会标签进行规范控制的目的。 (4)根据情报语言学原理提出了基于概念空间的“内核受控,外壳非控”的中文图书社会标签分类模式,即通过标签系统的后台控制,达到对社会标签的规范控制,从而实现基于社会标签的中文图书的自动分类。 本文的创新点主要有以下2个方面: (1)通过对中文图书社会标签特点的调查分析,证实了社会标签具有自然语言的特点,为将自然语言的分析处理方法应用到社会标签中的可行性提供了理论依据,从而引入概念空间控制方法,建立中文图书的“社会标签—主题词”概念空间模型,实现对社会标签的规范控制。 (2)本文提出面向中文图书社会标签的“内核受控,外壳非控”的分类模式,实现了标签系统内部控制标签质量,外部保留用户操作习惯的文本分类思想。