基于文本挖掘的主题分类专家系统的设计和实现

来源 :安徽大学 | 被引量 : 0次 | 上传用户:xiaomeitomei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘是数据挖掘、机器学习、自然语言理解及相关自动文本处理等理论和技术相结合的产物,是信息检索与数据挖掘领域的研究热点与核心技术,它得到了越来越多研究人员的关注。我们承担的清史图像数据库管理系统是国家清史办公室的重点科研项目,其中主题分类专家系统是基于文本挖掘的相关技术构建的。在该主题分类系统的开发过程中,笔者研究了高效准确的分词方法,更有利于施用的规则模型,精确度更高的规则匹配算法。具体如下:1.讨论了逆向最大匹配的分词算法,然后针对系统处理对象的特点,提出了一些改进方法。2.针对清史图像图片名称命名特点,提出了一个新的规则归纳算法。3.讨论了几种近似字符串匹配算法,指出其不足之处,然后对基于编辑距离的Pair-wise比较算法作了改进,实验结果证明改进后的算法提高了规则匹配的准确率。笔者在SQL Sever2000平台上用VB.NET开发了该专家系统,一方面利用SQL Sever2000等关系数据库强大的信息管理能力增强了系统对知识的存储、管理和运用的能力,另一方面又借助VB.NET优秀的综合开发能力实现了快速开发。该主题分类专家系统通过系统测试,结果比较令人满意。
其他文献
登记档案管理是事业单位管理体系的重要组成要素,企业管理成效将会直接影响到档案利用率,同时也会对事业单位的持续性发展带来一定影响。为了进一步拓宽事业单位的发展空间,
目的:探讨甲状腺功能亢进(甲亢)、甲状腺功能减低(甲低)与肝纤维化指标的关系及其可能的机制.方法:用放射免疫分析(RIA)检测57例甲亢患者、43例甲低患者、39例甲亢治疗后甲状
目的:建立颗粒增强免疫透射比浊测定血中胱蛋白酶抑制剂C(Cyst C)全自动分析,评价该法常规用于检测血中胱蛋白酶抑制剂C的可行性。方法:将含有Cyst C血样本与乳胶颗粒增强的Cyst C
本研究运用社会互动理论和社会网络理论,对目前的城市社区居民邻里互动的情况进行实证研究后发现:(1)无论是在邻里规模、邻里的互动频率还是在邻里交往的层次深度上,安置房小区
目的:探讨血浆脑钠肽(BNP)和血清心肌蛋白I(cTnI)联检在急性心肌梗死(AMI)诊断及预后中的作用。方法:用ELISA测定血浆BNP,用ACCESS全自动磁微粒子化学发光仪测定血清cTnI。结果:AMI组BN
本文主要以曾巩的诗歌为研究中心,分别从思想内容、艺术个性、师承渊源三个角度加以论述,挖掘曾巩诗歌的价值所在。引言,简单介绍从宋代至清代文人们对于曾巩诗歌所作出的评
第二次世界大战结束不久,美国参议员富布赖特向国会提出了著名的国际交流理解计划,史称富布赖特计划。作为世界史上规模最大、影响最广、持续时间最长的国际文化教育交流计划
小学语文新课程标准中要求在综合性学习过程中不断促进小学生语文素质的提升,为其提供一个良好的学习环境,让学生能够更加积极主动的参与到语文综合性学习中来,组织开展各种综合
中等职业学校的物理教学主要是培养和提高学生的观察能力、实验能力、思维能力、分析和解决问题的能力、自我发展和获取知识的能力,为相关专业课程学习和综合职业能力培养打好
我院从1999年以来共收集了风心病、冠心病、高血压病、肺部感染病人等共92例,进行血清地高辛药物含量测定,现报告如下.