论文部分内容阅读
目前,Internet以惊人的速度向前发展,Web作为信息发布与处理的主要平台,蕴含着大量人们迫切需要的知识。而如何将Web中的海量信息中的知识提取并加以利用,一直是人们努力探索的问题。因此,Web文本挖掘技术应运而生,如何通过Web文本挖掘技术来提高文本情报的利用价值成为本文研究的重点。本文通过分析Web页面结构,设计和实现了解析HTML文档树的方法,从Web页面中抽取出了对企业有价值的文本内容。采用了基于字典的统计分词算法对文本进行分词处理,并在此基础上去除了文本中的无意义词。在分析已有关键词提取方法的基础上,引入了一种基于词的统计和分布的权重计算方式实现了文本关键词的提取。综合考虑关键词、句子在文章中的位置以及特殊标记等因素,采取直接从文中提取句子的方法实现了文摘的自动获取。针对重复的文本情报,在计算文本特征句最长公共子序列的基础上实现了文本去重。本文同时分析了SVM分类器所存在的问题,在SVM分类器两类可分的基础上通过结合二叉决策树实现了多类可分,并且设计了SVM决策树的生成算法,然后在此基础上实现了文本分类。综合本文中研究的知识和技术,设计和实现了面向企业竞争情报的Web文本挖掘模块,并应用于企业竞争情报分析与挖掘服务系统中。