基于Web文本挖掘的信息支持工具及其应用

来源 :中国科学院数学与系统科学研究院 | 被引量 : 0次 | 上传用户:flywate
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
综合集成研讨厅框架包括了专家体系,知识体系和机器体系。作为综合集成研讨厅机器体系的一部分的群体研讨环境GAE(Group ArgumentationEnviroment)是辅助群体思考的分布式计算机环境,旨在将参与人员的个人数据、信息、知识通过研讨平台交流、共享、融合和应用。Web文本挖掘是指从大量非结构化、异构的Web文档的集合中发现有效的、新颖的潜在可用的及最终可理解的知识及可视化等形式的过程。Web文本挖掘为GAE提供增强的信息支持的一种技术手段。   本文精炼出了一种基本的Web文本挖掘过程,它包括:网络爬虫、Web页面索引、Web页面总结、Web页面聚类和用户使用接口。网络爬虫的功能是实现Web页面的收集;Web页面索引的功能是实现Web页面特征以及纯文本的抽取;Web页面总结实现对Web页面中心意思的提取:Web页面聚类根据Web页面的相似程度进行聚类分析;用户使用接口将Web文本挖掘的结果以一种用户可以接受的方式表现出来。   对Web页面索引,本文提出了一种中文纯文本的抽取方法;对Web页面总结,本文提出了一种面向中文文本的关键词提取方法并解释了这种提取方法产生的原因;对Web页面聚类,本文按照页面的相似度进行聚类。   针对香山科学会议,本文基于以上过程开发实现了Web文本挖掘信息支持工具AIS—GAE(Augmented Information Support In GAE),并分析了AIS—GAE为香山科学会议提供的各种具体实际的应用功能。针对德国之声中文新闻网站,本文针对某一新闻主题进行了Web文本挖掘,说明了Web文本挖掘在新闻网站应用的意义和价值。   研究的结果表明:Web文本挖掘为GAE信息支持提供了有效的办法。它实现了对Web信息的抽取、整理和加工,并且从不同的方面为GAE参与研讨人员提供大量的与研讨主题相关的信息。
其他文献
随着国内成品油市场的对外开放,许多国际大石油公司都已经在我国大城市开办了加油站,面对全球性跨国公司的重组及全球战略的变化加之这些公司在成品油分销业务上先进的管理方式
成品油管道低洼处积水引起的腐蚀产物经常会堵塞干线设备,利用油流剪切、冲刷低洼处积水进而将其排出管道是减少管道腐蚀、防止管道堵塞的有效方法.从试验研究、理论分析及数
运用传统优化方法(如,运筹、博弈方法等)研究供应链管理问题的文献已相当丰富。这些研究极大地推动了供应链管理理论及其应用研究的快速发展。然而,供应链系统作为一个动态系统
学位
伴随加入WTO和经济全球化,中国正在成为世界制造业的中心,而制造业的水平直接决定了一个国家的国际竞争力和在国际分工中的地位,也同时决定了这个国家的经济地位。中国的制造企
随着经济全球化的发展,基于供应链的竞争变得越来越激烈,如何快速满足顾客多样化的需求,降低企业运营成本,进行有效的库存控制成为当前众多企业面临的难题。快速反应供应链上集中
随着网络技术应用的急剧增加和对业务多样性要求的提高,网络的安全性问题日益突出。由于传统认证方式对园区网络中用户数据包繁琐的处理造成了网络传输瓶颈,而通过增加其它网
2020年5月23日上午,在全国政协经济界联组会上,听完有关委员关于“新就业形态”的发言,习近平总书记指出,新冠肺炎疫情突如其来,“新就业形态”也是脱颖而出.要顺势而为.当然
期刊
资源共享应用一直是计算机应用的一个重要方面,HTTP、FTP等协议就是为了满足人们资源共享需要开发出来的,但是随着计算机技术的不断进步和网络带宽的不断增加,人们对资源共享的
本文通过对荣华二采区10
本文以企业信息化投资强度的为主线,描述了投资强度的分布规律以及曲线,从投资强度的控制对策入手进行分析研究,根据投资强度的影响因素指标体系的设计原则,设立影响因素指标体系的设计分层目标,在构建投资强度影响因素体系的基础上,提出了投资强度影响因素总体设计框架和投资强度影响因素的指标确认方法,利用科学的对比、统计手段,构建影响因素的结构性矩阵框架,创新性提出了影响投资强度匡算模型,本文系统性概括了信息化