【摘 要】
:
该文以计算文档之间的相关性为目标,先后展开了汉语分词、特征选择、自动分类以及向量空间模型计算相似度四个步骤的工作.汉语分词是一个基础,该文为了提高分词的准确性,提出
论文部分内容阅读
该文以计算文档之间的相关性为目标,先后展开了汉语分词、特征选择、自动分类以及向量空间模型计算相似度四个步骤的工作.汉语分词是一个基础,该文为了提高分词的准确性,提出了基于若干规则的分词算法,消除了部分歧义;在特征选择过程中,一种符合汉语习惯的短特征选择方法被结合使用,大大减少了特征数量;贝叶斯网络被用在自动分类决策过程中,取得了理想的效果,此外,该文还针对一个基于K-L距离特征聚类的算法进行改进,提出了一个基于特征模糊相关的贝叶斯分类算法-FFCB,该算法在进行压缩特征的前提下利用模糊隶属度保留了分类信息,弥补了原算法由于信息损失导致分类准确率下降的不足,提高了分类的准确率.在贝叶斯文档分类的基础上,由于根据向量空间模型计算文档相似度的规模减少了,系统的整体运行效率得到提高.最后,一个由作者独立研发的应用系统-智能文档管理系统AGENT被投入到各项测试和实际使用中,作者结合实际讨论了AGENT的应用范围、前景以及未来的工作.
其他文献
针对当前信息获取存在效率不高问题,本文通过对智能推拉技术进行分析和研究,将信息服务的主动能力在提供者和需求者之间进行合理的分配,分别提出基于Internet和Intranet智能信息
随着微处理器技术与互联网技术的不断发展,嵌入式系统的应用也进入到各行各业。以信息家电为代表的互联网时代的嵌入式产品,不仅为嵌入式应用的市场展现了美好前景,注入了新的生
为UML提供坚实的形式化基础是近年来UML研究的热点之一。UML是一种可视化的通用的面向对象建模语言。但是目前UML的语义仍是半形式化的,它是建立在元模型和对象约束语言(OCL,Ob
针对口语对话系统中语言理解任务的若干难点,深入研究基于规则的方法,在规则的描述能力.文法语义分析及对话语境对语音识别的指导诸方面进行了研究,提出了如下方法.策略:1.上
在最近的几十年内,计算机与网络发生了巨大的变化,由于这些变化,出现了对大规模电子商务与电子交易系统应用程序安全的更大需求。传统的商务活动所要求的安全、可信、不可伪造和
该研究来源于实际的工程项目,项目的内容是快速加工为顾客量体定制的鞋垫产品.该研究以提出更加通用的解决方案为出发点,在参考了逆向工程等相关技术的基础上,对项目中所涉及
该研究主要针对目前各医院设备水平不一的情况,提出采用DICOM网关的方式连接各种医学影像设备,使非DICOM标准格式的影像转换成DICOM标准格式,并且应用于PC-B超诊断仪.该网关
工程图识别与理解是文档分析与理解技术领域的重要分支,也是计算机应用研究的一个重要课题。CAD、CAM等计算机辅助工具的推广和使用逐步促成了各工程领域的设计或施工过程的自
本文针对化工行业的特点,运用AutoCAD R14的各项开发技术,采用参数化设计方法建立了化工图库系统。本文对图形数据库及参数化技术进行了深入的研究,分析了各种参数化设计方法的
随着图像科学的发展和计算机信息处理能力的增强,图像处理在理论研究和实际应用中都取得了飞速的发展,并已广泛的应用于越来越多的科学领域。图像检索是图像数据库中的一门重要