论文部分内容阅读
分众分类法作为一种平民分类方法,其分类标签具有个人自发性定义,标签分类公开共享等特点,但是分众分类系统标签具有语义模糊、不精确、随意的缺点,导致用户信息发现和分享效率低下。此外,词形的变化、拼写错误、同名异义的问题也导致了它的模糊性。同时,在分众分类法的中文运用问题上还存在着分词结构模糊的问题。面对分众分类系统出现的发展瓶颈,我们求助于传统分类法。传统分类法特别是受控词表历史悠久,在一定程度上体现了知识分类的科学性。其词汇的规范性和等级式结构便于按学科对信息进行汇集;为此,应该将分众分类与受控词表进行融合,以提高信息分类的质量和效率,即能够运用受控词表中的语义关系扩展用户使用的标签,起到推荐标签、提高检索效率的作用,同时符合受控词表选词规范的标签可以作为受控词表词汇更新的数据源。论文以《中国分类主题词表》教育类高频主题词、Del. icio. us网站中用户、标签、资源数据作为数据源,分析了中文标签与主题词的特征,并对中文标签与主题词进行比较分析,以探讨标签和主题词融合的可能性。根据标签标注的资源构建标签向量、标签共现矩阵、标签相似性矩阵,利用SPSS软件完成了标签聚类,结合标签对相似系数将聚类的标签簇构建成一个小型的“标签树”(标签的层次结构)。同时,借助于在线词表《中国分类主题词表》和ERIC叙词表,完成了标签本体的构建。基于构建的轻型标签本体提出一种受控词表主题词扩展算法,并通过试验最终得到25个高频标签以及它们与主题词的关系作为《中国分类主题词表》的扩展主题词,从而验证了该算法的有效性。本文的创新之处在于:一方面设计了一套基于在线词表抽取标签语义关系,进而构建轻型标签本体的流程,并利用教育类的标签对该流程进行了验证;另一方面基于构建的轻型标签本体提出了扩展受控词表的算法,并通过实验验证了该算法的有效性。