基于潜在语义索引的Wikidata机构实体聚类研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:griffinroar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】Wikidata机构类目范畴树中,存在实例数目过多而使类目的外延过大、不能明确指示及类分资源的问题。为系统化机构名称层级体系,需将这些实例进行划分,使其均衡分布在机构范畴树的各层。【方法】将无监督的层次聚类算法用于解决无类别标签的机构实例的自动聚簇问题。为消除机构实体名称中特征词共现对聚类算法的影响,引入Wikidata中机构实体的相关属性作为其上下文环境。同时聚类算法对数据的维度十分敏感,因此采用潜在语义索引作为文本表示模型,通过奇异值分解将高维数据映射到潜在的低维语义空间。【结果】本文方法在实验数据集上的聚类准确率达到87.3%,取得了较好的聚类效果。【局限】仅在小样本数据集上进行验证。【结论】为机构名称提供上下文环境有利于同类机构的聚集,基于潜在语义索引模型的层次聚类算法对于高维度的文本聚类问题是有效的。
其他文献
奥斯曼帝国的监狱改革在哈米德时代进一步完善,根据穆菲提斯帕夏的对监狱状况检查和提交的建议,颁布了重要的1880年监狱规定;帝国还派遣代表积极参加国际司法组织,在宫廷中建
理论上消费结构与产业结构相互推动,基于我国1999-2011年间面板数据,本文实证检验城镇居民消费结构与产业结构的互动关系,进而得出二者在我国东、中、西部的区域效应差异。全
第一部分Lenstar LS900与A超在超高度近视白内障患者中人工晶状体度数测算的比较目的:比较Lenstar LS900与A超在超高度近视白内障患者人工晶状体测算的差异和优劣。方法:采用
20-羟二十烷四烯酸(20-hydroxyeicosatetraenoic acid,20-HETE)是花生四烯酸在细胞色素P450ω-羟化酶催化下所生成的一种代谢产物,是一种重要的血管收缩物质。20-HETE是否在
本文研究了基于动态时变需求下,存在生产产出和库存损失以及销售收入等不确定约束下的多品种、多周期、多循环的动态的库存最优控制的模型的建立和求解,在模型中的生产率和库
非刚体的三维运动重建是计算机虚拟表达客观世界的一项关键技术,主要研究如何从一组给定的二维动态图像序列中恢复出相机的旋转信息和非刚体的三维结构。主流的重建方案有两
本文梳理了古典自然法的发展脉络,包括三个阶段,以霍布斯、洛克和孟德斯鸠以及卢梭为代表人物,具体介绍了他们的自然法思想。在此基础上,分析了古典自然法的地位和影响。
产业投资基金简称产业基金,是切合目前中国经济发展所必须的一种金融创新投资。越来越多的产业基金映入眼帘,产业基金有助于发展直接融资,调整资源配置,发挥资本市场的融资功
本文对教学管理在学校管理工作中的地位进行了探讨,对教学管理的任务及其基本内容进行了比较详尽的分析,以提高广大教职工对教学管理的认识,促使学校的教学管理水平上一个新
目的:观察兔下肢急性缺血再灌注损伤(I/R)模型CT灌注参数的演变规律,结合相应实验室生化指标(CK、LDH、MDA、SOD),探讨CT灌注成像对兔骨骼肌急性缺血再灌注损伤的诊断价值,为临床应用