论文部分内容阅读
文本挖掘是数据挖掘、机器学习、自然语言理解及相关自动文本处理等理论和技术相结合的产物,是信息检索与数据挖掘领域的研究热点与核心技术,它得到了越来越多研究人员的关注。我们承担的清史图像数据库管理系统是国家清史办公室的重点科研项目,其中主题分类专家系统是基于文本挖掘的相关技术构建的。在该主题分类系统的开发过程中,笔者研究了高效准确的分词方法,更有利于施用的规则模型,精确度更高的规则匹配算法。具体如下:1.讨论了逆向最大匹配的分词算法,然后针对系统处理对象的特点,提出了一些改进方法。2.针对清史图像图片名称命名特点,提出了一个新的规则归纳算法。3.讨论了几种近似字符串匹配算法,指出其不足之处,然后对基于编辑距离的Pair-wise比较算法作了改进,实验结果证明改进后的算法提高了规则匹配的准确率。笔者在SQL Sever2000平台上用VB.NET开发了该专家系统,一方面利用SQL Sever2000等关系数据库强大的信息管理能力增强了系统对知识的存储、管理和运用的能力,另一方面又借助VB.NET优秀的综合开发能力实现了快速开发。该主题分类专家系统通过系统测试,结果比较令人满意。