基于文本分类的知识管理系统的设计与实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:yuhang0211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络技术不断发展和成熟的时代,越来越多的组织和机构加入互联网,在网络上发布和分享信息。因此,人们获取和管理信息的方式正在从书本向网络上转变,但网络上的信息量日益剧增,在互联网上可获取的信息纷繁杂多并且形式多种多样。这为信息的获取带来多样性。对这些用户需求的信息进行高效的组织和管理,并转化成为自身的知识,加大了知识管理的难度。组织和管理用户收集的大量信息已经成为研究的热点。文本分类是一种重要的文本数据分析形式,它构建了重要文本数据类别的模型,用来预测分类的类标号。文本分类可以有效的对收集的信息形成不同的类别,从而方便用户在知识管理系统中获取自己所需要的信息。本文在对文本分类的研究基础上,综合考虑分类过程中每一个阶段不同参数配置对分类结果的影响,构建出一种可调节的最佳分类器。针对现有的知识管理系统的设计和各自的适用环境的不同,将文本分类应用于知识管理系统中,设计和实现适用于个人应用的知识管理系统,从而有效的对用户的知识进行组织和管理。整个系统设计了知识采集子系统、知识处理子系统、知识展示子系统三个子系统。分别完成各自的功能。本论文相关工作的创新点主要体现在以下两个方面:(1)在使用用户的文本知识集构造分类数据集的过程中,首先通过文本聚类得出大致的簇;其次提取关键词用于给每个簇打标签。在此过程中,本文将文本的标题分词后的词和聚类得到的簇中的TFIDF值比较高的词组成候选词集合,然后考虑词的位置信息并赋予权重,提出一种计算候选词的代表度的方法。选取代表度值最高的作为簇的标签。从而构造出完整的分类数据集。(2)构造分类数据集所使用的聚类算法,和在分类器构建过程使用的朴素贝叶斯算法和随机森林算法,都通过Map Reduce实现并行化。
其他文献
时间序列是按时间顺序排列的实数序列,它反映了实体属性在时间顺序上的特征。时间序列的降维、相似性匹配及聚类研究是数据挖掘领域的重要研究方面,在位置定位系统、环境监测
为提高空军部队信息化建设水平,上级向作者所在部队下达了“航空兵师信息化试点建设”任务,立项研发“某部信息化办公平台系统”,本文将要介绍的“哨位管理系统”是其子项目
DIBR(Depth Image Based Rendering)技术被广泛应用于自由视点3DTV和面向移动设备的3D游戏和漫游等应用中。其基本方法是用一张纹理图和对应的深度图合成自由视点3D场景。然
随着网络技术的飞速发展,网络安全问题也越来越突出,传统的入侵检测技术已经很难应付各种复杂的网络攻击。免疫系统具有的自适应、自组织和分布性正是传统的入侵检测技术所期望
在现代钢管焊缝缺陷检测中,常采用人工评阅X射线底片的方法,人工评阅主观性较大,评阅人员在大量重复性的脑力活动下,极易产生疲劳,很大程度上影响了检测的效率和准确性。基于
随着现代物流业的快速发展,物流灵魂的仓储管理技术(WMS)的研究与开发已成为需求紧迫,前景广阔的课题。尤其是仓储设备由机械化进入自动化阶段,仓库管控呈现出新的发展趋势,技术
随着计算机图形学与以三维扫描为代表的硬件技术的发展,三维几何数据在当今社会得到了广泛的应用。在以三角形表面网格成为三维几何数据主流表示形式的同时,四面体网格(下称
混合结构视频网格利用客户端主机资源为其他用户提供视频服务,缩短了视频数据流的传输路径,扩展了系统结构,增强了系统的服务能力。但是,由于客户端主机性能差异较大且经常随
随着信息技术的飞速发展,软件的应用领域不断扩大,但是软件的可靠性和质量却没有得到相应的提高,这成为制约软件产业发展的一个重要因素。工业控制、交通、金融和医疗等领域
在三网融合逐步实现的大背景下,本文分析了三网融合、智能电视、AppStore、云计算的发展现状与趋势,针对当前电视发展存在的内容服务缺乏的问题,提出采用云计算技术、AppOnline