分布式环境下基于文本聚类的海量非结构化知识管理

被引量 : 1次 | 上传用户:cangxialong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在企业信息化的建设过程中,非结构化知识的规模越来越大,导致非结构化知识管理系统的检索性能大幅下降。如何对海量的非结构化知识进行高效的管理和检索,成为一个亟待解决的问题。因此本文深入研究基于文本聚类的索引构建技术与分布式检索技术,在分布式环境下实现海量知识的文本聚类,在此基础上并行的构建索引,并将传统的索引选择算法与基于查询空间的索引选择算法结合应用于分布式检索过程,提供高效的知识检索。本文主要研究工作包括:(1)分析了目前非结构化知识管理的研究现状和存在的问题,给出了基于文本聚类的非结构化知识管理系统的框架,设计了系统的工作流程。(2)深入研究系统的关键技术:基于文本聚类的分布式索引构建技术和基于分布式索引的知识检索。在索引构建过程,本文引入文本聚类技术划分索引,并研究设计了分布式环境下的并行聚类算法,在此基础上使用Lucene并行构建了分布式索引。在检索的过程中,对基于查询空间的索引选择算法进行研究,结合传统的索引选择算法提出了混合的分布式索引选择算法,并以此为基础,设计了一种改进的Lucene全局检索算法。(3)结合某直升机研究所的流体管路快速设计知识管理系统的背景,将关键技术应用到项目中,完成系统的设计与开发,实现了对非结构化的设计知识的高效管理。实验与应用结果表明本文提出的分布式环境下基于文本聚类的海量非结构化知识管理能够有效的应对大规模的非结构化知识,尤其知识检索的性能有显著的提升。
其他文献
在公众的眼里,被污名者一般只会被动地接受来自外界偏见和歧视带来的消极影响。事实上,他们会应用各种策略来减少、消除污名带来的消极影响。因此,采用污名应对的视角分析问题有
在对随机游走算法基本原理简要介绍的基础上,对其在两个方面做了进一步改进。(1)在迁移概率的计算中,加入了蒙特卡罗影响因子,更符合河流振荡性随机游走发育的特点,得到的模
电动汽车采用无线充电技术对蓄电池进行供电有诸多益处。无线充电系统利用松耦合变压器进行电能的非接触式传输。本文针对电动汽车无线充电要求,设计了一套闭环控制的电磁感应
视觉的研究始终是科学研究的一个重要的方向,而立体视觉是我们的视觉系统的重要的功能组成部分,对立体视觉的研究将对人类认识自我,改造客观世界等产生重要的影响,特别是在机器人
各国刑法几乎毫无争议地对既遂犯和未遂犯采取了区别处罚的立场,然而在理论层面,关于区别处罚是否合理却长期存在激烈的争论。迄今为止,区别处罚论者从报应刑论和功利刑论的
根据降阶态评估方法实施过程,以主战坦克武器系统为对象,进行降阶态易损性分析与评估仿真。在深入分析武器系统各子系统功能的基础上,进行武器系统易损性分析,确定了反应系统
随着国内金融衍生品市场的愈发成熟,中国金融投资者对风险管理的重视程度也逐渐增强,股指期货的套期保值功能作为投资者规避证券市场的系统性风险的重要工具,越来越被广泛地应用
辽宁省教育厅鼓励区域内高校联合开设优质课程并推进师资、课程的共享与学分互认,为学生提供更为广阔的学习空间,满足学生个性化学习需要,并提高高等学校教育教学质量.在这种
埃博拉病毒(Ebolavirus)是埃博拉病毒病(Ebola Virus Disease,EVD)的病原体,1976年首次在非洲发现,目前确认该病毒包括5个种,其中苏丹型(Sudan ebolavirus)、扎伊尔型(Zaire
<正>随着分子生物学的飞速发展,肿瘤的治疗药物开始由传统的广谱细胞毒作用模式向分子靶向抗肿瘤作用模式发展。2013年分子靶向药物全球销售额接近500亿美元。分子靶向抗肿瘤