基于用户特征的文件分类技术研究

被引量 : 0次 | 上传用户:jack0418
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用的日益普及,数字化文件已逐渐替代传统纸质文档而成为各类文件存储和交换的主要形式。在日常文件管理中由于自然人在文件管理中自身内隐性记忆的不确定性,导致随着时间的不断推移和文件数量的持续递增,各个类别中文件的语义会逐渐偏离原类别的语义,进而导致原始文件分类的失效并造成文件管理混乱。针对这一问题的存在具有普遍性,同时作为传统文本分类研究的逆向工程,具有一定的学术研究价值和现实意义。论文从用户文件分类管理过程的问题域特征分析入手,在充分借鉴、融合现有文本分类、自然语义理解、知识挖掘和机器学习等相关领域取得的研究成果基础之上,围绕基于用户分类习惯及语义理解特征的文件分类管理技术,从基于自然语言的文本语义特征提取、用户分类习惯与语义理解特征识别以及半监督学习机制的设计等三方面开展了以下探索性研究工作:首先对国内外相关领域文献收集整理的基础上,结合文本分类、自然语义分析和知识挖掘领域研究成果以及对文件分类管理问题特征分析,提出了课题研究的基本思路和技术路线;其次,针对文本语义特征提取技术,结合研究课题的问题域特征,考虑具体实现和计算法复杂性等方面问题,提出了基于SUMO本体概念的文本语义表示模型。在此基础上运用粗糙集理对用户文件分类规则进行提取,借鉴基于条件熵的启发式属性约简算法,提取出用户的分类规则,构建了文件分类模拟器;第三,为提高文件分类模拟器的预测精度并不断强化用户关于文件分类的内隐性记忆,提出以人机交互方式对文件分类模拟器的分类规则进行增量学习方法,并针对学习策略中完全匹配与部分匹配的缺点,提出一种基于相似度的匹配算法,并对规则的增量学习算法进行了初步研究。最后,结合论文研究的理论成果,对基于用户文件分类及语义理解习惯的计算机辅助文件分类管理系统进行了初步设计和原型开发,同时借助原型系统对主要的研究成果进行了实验验证。
其他文献
新生代农民工占农民工群体人数六成以上,其严重的偏差行为已经成为城市治安的重大隐患。探索其偏差行为的影响因素,对于控制和改善新生代农民工的偏差行为,促进新生代农民工更好
长期以来,国内对于德语现代主义文学的研究较多关注作品的思想内容,对于小说叙事范式的研究很少。而探讨小说叙事范式的变化,不仅能够揭示文学观念的变化,而且还能了解特定时
猪链球菌(Streptocccus suis,S.suis)是一种重要的人畜共患病原。根据其荚膜多糖抗原特性差异可将其分为35种血清型(1-34型,1/2型),其同一血清型不同菌株之间以及不同血清型之间的
<正>山之高兮神女候,水之深兮潜苍龙。坐落在山海之畔的青岛二中,便是这样一个汇聚了山海灵气的地方。每年夏末,都会有大批新生怀揣希冀踏入校园,而其中最扣人心弦的,便是学
巴托克·贝拉(Bartok Bela1881—1945)是二十世纪杰出的匈牙利作曲家、钢琴家、民俗学家,他的音乐创作被分为四个阶段,第二阶段创作的《八首匈牙利农民歌曲钢琴即兴曲》(1920年)是
<正>各位朋友大家好!我这次来到北京,原来是讲一个孔子哲学课程的系列。我讲过,任何人请我讲孔子我都不会推辞,因为讲孔子是我的一个使命,所以我很乐意。三十七年前,我跟从牟
吴英案历时五年引发社会各阶层对民间借贷合法化,阳光化的大讨论,社会各个阶层各抒己见,对我国现行规范民间借贷的法律规范深入探讨。我国现行法律没有专门对民间借贷进行规范,仅
本文从三方面阐释比较文学变异学从理论到实践的历程,首先从人类文学发展史、差异可比性以及当下学科失范的角度提出变异学的理论依据以及它的学科价值。其次,概述变异学提出
<正>国电物资集团有限公司把国电集团"一五五"发展战略,即"建设一流综合性电力集团"的战略目标、"共筑家园·舞台·梦,打造效益国电、绿色国电、创新国电、廉洁国电、幸福国