文本分类方案选择方法及原型系统开发

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ryan1114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究内容基于国家自然科学基金项目“项目管理中项目关联分析与立项决策支持系统研究”,项目的相关性分析依据项目建议书的研究内容,这里涉及的一个基本问题就是文本分类问题。 文本分类问题涉及到文本模型表示、特征选择、分类算法以及权重设置等多种方法的综合应用,需要针对不同的文本集合特点选择合适的分类方案。本文目的是针对不同类型的文本集合,提出一种判断类型的方法,结合文本集合类型与分类相关方法特点,分析可行分类方案,通过实验验证可行方案分析的正确性并找出最佳分类方案,最后通过实例验证可行方案与最佳方案的正确性。并根据应用要求开发一种集成多种文本相关分类方法的原型系统。 首先是文本分类相关方法的特点分析。针对文本分类方法包括文本表示模型、文本分类算法、特征选择方法以及权重设置方法等,根据定义并参考一些文献分析并总结了各种方法的优势与不足。 其次是文本集合的特点分析及文本分类方案的构造与选择。重点分析了不同类别结构的文本集合的特点,并提出在类别结构上不同类型的文本集合的类型判断方法与判断标准。针对不同类型特点,结合分类方法的特点分析可行分类方案并给出最佳分类方案的评价标准和选择方法,通过实验得出最佳分类方案同时验证了可行方案的正确性。 第三是分类原型系统分析与设计。本文对集成多种分类方法的文本分类原型系统进行设计与实现。根据对文本自动分类流程的分析并考虑系统的安全性、灵活性和易维护性进行系统的设计。 最后是分类原型系统的实现与应用实例。本文依靠实现的文本分类原型系统,对两种类型文本集合进行实例计算,根据计算结果和分类方案性能评估标准找出两类文本集合的最佳文本分类方案同时进一步验证了可行方案的正确性。
其他文献
现代化大生产对机械设备运行的稳定性、可靠性提出了更高的要求,相应的机械设备状态监测和故障诊断的意义也变得更加重要。但是传统的振动监测仪硬件采用8位或16位的MCU作为其
自1974年Rosenbrock在研究复杂电路网络系统中首次正式提出广义系统问题以来,人们又在经济管理、电子网络、生物工程和航空航天技术等领域发现了许多广义系统的实例。而广义
交通仿真是一种通过再现道路交通过程,对交通状况、过程和各种控制管理措施做出科学的分析和评价,验证改善措施合理性的一种技术。不同交通流仿真模型的选取,将直接影响到仿真结
燃料电池是一种高效、低噪音和少污染的洁净能源。在能源问题层出不穷的今天,燃料电池由于自身的优点已经成为全球能源研究的热点,其在固定电站,汽车及消费类电子中已经开始应用
同行评议是科学基金项目评审工作的核心,其效果主要取决于同行专家的选择。本质上,同行专家的选择过程是在已知项目知识的条件下,从专家库中搜索出与己知项目具有相似知识的专家
为了实现摄影机和PC机之间的数据传输和相互控制,每一系列的摄影机必须推出它们的PC端应用程序。本文介绍了一种基于COM技术的摄影机的PC端应用程序开发,不但实现了两款摄影机
炉窑温度过程是控制领域典型控制对象,许多炉窑常常是一个过程多个温度参数同时要进行控制,也就是控制上常说的多变量系统。多变量系统的回路之间存在着耦合,即系统的某一个输入
H.264是VCEG(视频编码专家组)和MPEG(运动图像专家组)最新的视频标准。与现有的视频标准相比,H.264编码器能在保持相同图像质量的情况下,节省大约50%的码率。新技术有效地提
视频监控系统以其直观、方便、实时、信息内容详实等优点被广泛应用于生产管理、安防等场合,成为金融、交通、商业、电力、公安、海关、国防、乃至住宅社区等领域安全防范监
现代社会日益面临着研究并处理规模庞大、结构复杂的系统问题,使得复杂大系统理论已经成为控制理论的一个专门领域。由于这些复杂大系统自身所具有的特点,即规模大、维数高、往