面向分布式文本知识管理的中文分词与文本分类研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ydsl_0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们正处于一个知识经济的时代,知识正继传统的土地、自然资源、资本和劳动力之后成为推动社会进步与发展的重要力量。知识经济时代在客观上要求有与之相适应的管理模式和理论及有效的技术手段。基于这个背景,本论文着重研究和探讨了文本知识管理中基础性的中文分词技术以及文本分类技术,并提出分布式知识管理系统的架构等。具体有以下几个方面:(1)提出了一种自适应分词算法。中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。本论文基于“2-gram”统计模型而实现一种能很好适应语料信息的分词算法,且时间和精度都能满足文本知识管理系统的应用需要。利用“分而治之”的思想来处理句长和词长的情况,用局部概率与全局概率相结合来识别生词和消歧,取得了很好的效果,从而使本论文提出的算法能够自动适应行业领域的知识管理。(2)提出了一种新的基于降维近似支持向量机的分类算法PSVM。近似支持向量机与标准支持向量机的主要区别在于它们所对应的优化问题的约束条件不同。即支持向量机是将问题归结为线性不等式约束二次规划问题,而近似支持向量机是将问题归结成仅含线性等式约束的二次规划问题。从理论上证明了该算法的时间复杂度和空间复杂度比传统的SVM算法均有降低,在此基础上提出了新的学习算法。实验表明,提出的新算法与主要的分类算法相比有较好的性能。尽管较之标准SVM算法的精度有所下降,但训练的时间比标准SVM算法要快,可以满足文本知识管理系统对训练时间敏感和需要处理大量文本的苛刻环境要求,从而具备较大的实用价值。(3)提出了一种基于本体的层次文本分类算法。通常讨论的分类问题是单层分类,而层次分类是指多层类别关系下的分类问题。实际应用的文本知识管理系统通常是面向特定的行业和领域,并且具备一定的模糊性而存在多种分类的特性。用户对于知识的关联性及多概念粒度的分类有较高需求,这就需要采用更好的多层信息组织方式。针对文本知识管理系统中常见的多层类别关系下的分类问题,提出了一种基于本体的层次文本分类算法,该方法利用知识管理系统的知识本体和受控关键词表,并基于概念之间的相似度来实现文本的精确分类、查询和检索。而且,该方法同样也适用于单层分类。(4)提出了一种分布式文本知识管理系统模型。为了适应现有分散性组织的发展模式,使有效的分布式文本知识管理成为知识管理的发展趋势之一。本论文提出的分布式文本知识管理系统模型是将Super-P2P技术应用于文本知识管理,以解决集中式文本知识管理所遇到的问题,并对模型提供的知识服务进行了研究和论述。在以上工作的基础上,在上海“浦东科技发展基金”和宝信软件的支持下,我们实现了一个基于Super-P2P、而集成工作流驱动的文本知识管理系统eKnow。本论文总结了eKnow的设计思想、系统框架和技术路线。该系统已经应用于多个案例,取得了较大的经济效益。
其他文献
"全国模范职工之家"是国家对基层工会工作的最高褒奖,烟台公交集团工会能够获得这一全国工会系统表彰先进集体的最高荣誉,是对其多年来着力企业与职工共同发展、构建和谐企业工
桦南林区工会2005年被评为黑龙江省模范职工之家荣获称号。几年来切实加强自身建设,履行工会各项职能,积极构建和谐职工之家。全面调动广大职工群众发挥主人翁责任感,使职工
随着信息和计算机技术的飞速发展,人脸面部表情识别技术越来越受到重视。人脸表情识别是智能人机交互的重要基础,该课题涉及图像处理、运动跟踪、模式识别、生理学、心理学等
随着我国经济的发展与科技的进步,我国的交通事业也得到了快速的发展,其中的铁路桥梁建设逐渐引起了人们的重视.做好铁路桥梁的施工,也是对国家交通安全负责.本文对铁路桥梁
目的:观察部队官兵濒海驻训期间,应用自制便携式紫外线杀菌烘干鞋架杀菌烘干鞋靴防治足癣的效果。方法:选择足癣90例,随机分为观察组和对照组各45例。对照组外用咪康唑乳膏,2
单片机教学的成败对后续课程的学习及专业技能的掌握,具有重要的意义。针对当前单片机教学过程中的现状和存在的问题,结合教学实践,提出了单片机理论教学改革和实验教学改革的方
<正>贾平凹是新时期以来在国外影响较大的作家。其作品"走出去"的步伐早,译成外文的数量多,国外对其创作的研究既有宽度和广度,亦不乏深度与厚度。贾平凹以独特的视角,向世界
腻子膏是一种膏状的成品腻子,可以直接施工,操作简便.主要用于室内一般墙面的平整处理.一般是由基料、填料、水和助剂等组成.随着人们环保意识的提升,腻子膏因其开桶即用、无
中国家庭对教育的需求和支出正逐步提高,普遍期待现有教育体系能与时俱进,从对应试能力培养更好地跃迁到自主学习能力的养成,同时,大量新生代家长也将视野放到全球,关注国际
以芦苇打捆机为研究对象,针对其满载运输工况下抓斗振动对物料完整性的影响进行了振动系统动力学研究。首先分析了油气减振系统的结构组成及工作原理,然后通过对系统各组成环