论文部分内容阅读
本文针对日益严峻的“信息爆炸、数据泛滥、知识贫乏”的窘境,提出了一种基于OODA决策循环的主题发现。主题发现是从海量的数据中快速,有效的获取有价值的信息,了解数据集内容的一系列技术方法的总称。主题发现分为广义和狭义之分,广义的主题发现针对各种常见数据集(文本,图像,音频,视频等),狭义的主题发现仅针对文本数据。我们通常所说的主题发现是狭义的主题发现。本文将类似人类思考模式的OODA引入,作为主题发现的框架,充分借鉴智能数据挖掘、文本挖掘,数据融合,知识发现等技术方法和相关的思想,融合多个学科,多角度的对主题发现进行研究和分析。基于OODA的主题发现可以使人们能够从大量繁杂的信息中快速有效的提取主题,获取必要的知识,供人们分析决策。其相关的技术、方法、模型和思路可以应用到信息检索,文本分类和聚类,舆情监控,文献检索,主动信息推送等应用领域。目前,主题发现缺乏通用完善的主题发现框架;主题发现中模式的识别,特征项的提取,相似度的计算等模块都需要研究加强改进的算法,提高性能;主题发现中领域的适应性不够,缺乏专门领域的主题发现,以适应不同的用户和环境需求;主题发现的过程和结果缺乏可视化的展示以及与用户的交互,需要寻找或研究将可视化的发现过程与结果直观展示,便于用户理解,评价,交互,改进的方法和工具。本文除了将OODA作为主题发现的技术框架加以研究探索外,还改进了TF*IDF算法计算特征项的权重和去除停用词;利用关联规则挖掘解决复合词的识别问题;利用关联规则与改进的TF*IDF算法相结合构建领域词库,增强领域适应性,加快主题词提取的效率和准确度。对词语,句子,文本等进行基于关键词的关联规则挖掘的关联分析,相似度计算,并将关联分析和改进的K-means算法进行主题聚类研究;利用可视化的开发工具NetBeans,验证实现主题发现的相关技术方法,将该主题发现的过程加以可视化的展示,便于进行直观的理解、分析,便于与用户交互,从而更好的调试改进。使用某大学长年积累的BBS数据对基于OODA的主题发现框架加以验证,发现论坛数据中的热点问题,便于进行舆情监控。经过理论分析论证,及大量实验的验证,基于OODA决策循环的主题发现是可行的,有效地,能够很好的对主题发现问题进行剖析,合理抽象划分,易于理解分析,适合于主题发现的分析与设计。本文中的一些创新性的主题发现技术分析方法,也取得了比较好的效果或比以往的一些技术方得到了改进提高。