分众分类与受控词表的集成研究

来源 :山西大学 | 被引量 : 5次 | 上传用户:smilelily87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分众分类法作为一种平民分类方法,其分类标签具有个人自发性定义,标签分类公开共享等特点,但是分众分类系统标签具有语义模糊、不精确、随意的缺点,导致用户信息发现和分享效率低下。此外,词形的变化、拼写错误、同名异义的问题也导致了它的模糊性。同时,在分众分类法的中文运用问题上还存在着分词结构模糊的问题。面对分众分类系统出现的发展瓶颈,我们求助于传统分类法。传统分类法特别是受控词表历史悠久,在一定程度上体现了知识分类的科学性。其词汇的规范性和等级式结构便于按学科对信息进行汇集;为此,应该将分众分类与受控词表进行融合,以提高信息分类的质量和效率,即能够运用受控词表中的语义关系扩展用户使用的标签,起到推荐标签、提高检索效率的作用,同时符合受控词表选词规范的标签可以作为受控词表词汇更新的数据源。论文以《中国分类主题词表》教育类高频主题词、Del. icio. us网站中用户、标签、资源数据作为数据源,分析了中文标签与主题词的特征,并对中文标签与主题词进行比较分析,以探讨标签和主题词融合的可能性。根据标签标注的资源构建标签向量、标签共现矩阵、标签相似性矩阵,利用SPSS软件完成了标签聚类,结合标签对相似系数将聚类的标签簇构建成一个小型的“标签树”(标签的层次结构)。同时,借助于在线词表《中国分类主题词表》和ERIC叙词表,完成了标签本体的构建。基于构建的轻型标签本体提出一种受控词表主题词扩展算法,并通过试验最终得到25个高频标签以及它们与主题词的关系作为《中国分类主题词表》的扩展主题词,从而验证了该算法的有效性。本文的创新之处在于:一方面设计了一套基于在线词表抽取标签语义关系,进而构建轻型标签本体的流程,并利用教育类的标签对该流程进行了验证;另一方面基于构建的轻型标签本体提出了扩展受控词表的算法,并通过实验验证了该算法的有效性。
其他文献
近20年来,非政府组织为我国社会各界共同关注。非政府组织概念由于没有对应的社会结构,不适合用以描述我国社会组织。中国在独特的现代化过程中形成了党组织与社会一体化结构
本文是中国对外文化集团公司董事长兼总经理张宇几年前为《娱乐双周刊》撰写的发刊词。文章首次提出了文化国土的概念,并指出开发文化国土,使文化资源转化为最大的民族财富,
目的:基于循证医学理念和方法,初步构建针灸临床研究证据评价体系。方法:采用文献分析方法、专家访谈方法和共识性方法,结合针灸学科及文献特点,比对循证医学证据评价体系,探
我国物流业整体发展起步晚,速度慢。特别是中小物流企业更是缺乏行业竞争力,增长缓慢,实力不足,本文从中小企业的现状出发,对企业的优势和环境进行了分析,提出了企业中联合,
以新建大准至朔黄铁路联络线重点控制性工程大沙沟特大桥为例,介绍了液压爬模原理及其在大沙沟特大桥施工中的应用,并总结阐述了液压爬模的施工工艺流程。作为该工艺在大跨度
<正>戏剧是综合艺术,它不仅包含了一种以上的多种艺术因素,更为本质的标志在于它同时综合空间艺术(视觉艺术)和时间艺术(听觉艺术)这两种构成因素不相同的艺术成分。时空艺术
民主就是人民当家作主。既然如此,一国人民如何看待"当家作主"的含义、一国体制如何落实"当家作主"就至关重要。本文从理论上区分了两类民主:代表型民主与代议型民主。依据实
本文回顾了作者研究中国宪政秩序的学术背景,即在回应"宪法司法化"主张过程中,从法律社会学和法律政治学的视角来探索中国实际存在的宪政体制,从而将中国共产党作为"事实上的
现代社会中相控阵雷达的应用越来越广泛,相控阵雷达在目标识别、空间探测、雷达成像等先进技术领域的研究不断深入。相控阵雷达的各个部分开始采用全数字化的控制方式,这对波
<正>《弃妇》是李金发第一部诗集《微雨》的开卷篇,也是李金发的代表作。整个诗作的中心意象只有一个,就是生与死的忧伤,现实与梦幻的迷惘。这首诗充分体现了中国初期象征诗