论文部分内容阅读
综合集成研讨厅框架包括了专家体系,知识体系和机器体系。作为综合集成研讨厅机器体系的一部分的群体研讨环境GAE(Group ArgumentationEnviroment)是辅助群体思考的分布式计算机环境,旨在将参与人员的个人数据、信息、知识通过研讨平台交流、共享、融合和应用。Web文本挖掘是指从大量非结构化、异构的Web文档的集合中发现有效的、新颖的潜在可用的及最终可理解的知识及可视化等形式的过程。Web文本挖掘为GAE提供增强的信息支持的一种技术手段。
本文精炼出了一种基本的Web文本挖掘过程,它包括:网络爬虫、Web页面索引、Web页面总结、Web页面聚类和用户使用接口。网络爬虫的功能是实现Web页面的收集;Web页面索引的功能是实现Web页面特征以及纯文本的抽取;Web页面总结实现对Web页面中心意思的提取:Web页面聚类根据Web页面的相似程度进行聚类分析;用户使用接口将Web文本挖掘的结果以一种用户可以接受的方式表现出来。
对Web页面索引,本文提出了一种中文纯文本的抽取方法;对Web页面总结,本文提出了一种面向中文文本的关键词提取方法并解释了这种提取方法产生的原因;对Web页面聚类,本文按照页面的相似度进行聚类。
针对香山科学会议,本文基于以上过程开发实现了Web文本挖掘信息支持工具AIS—GAE(Augmented Information Support In GAE),并分析了AIS—GAE为香山科学会议提供的各种具体实际的应用功能。针对德国之声中文新闻网站,本文针对某一新闻主题进行了Web文本挖掘,说明了Web文本挖掘在新闻网站应用的意义和价值。
研究的结果表明:Web文本挖掘为GAE信息支持提供了有效的办法。它实现了对Web信息的抽取、整理和加工,并且从不同的方面为GAE参与研讨人员提供大量的与研讨主题相关的信息。