面向企业竞争情报的Web文本挖掘技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sharethesun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,Internet以惊人的速度向前发展,Web作为信息发布与处理的主要平台,蕴含着大量人们迫切需要的知识。而如何将Web中的海量信息中的知识提取并加以利用,一直是人们努力探索的问题。因此,Web文本挖掘技术应运而生,如何通过Web文本挖掘技术来提高文本情报的利用价值成为本文研究的重点。本文通过分析Web页面结构,设计和实现了解析HTML文档树的方法,从Web页面中抽取出了对企业有价值的文本内容。采用了基于字典的统计分词算法对文本进行分词处理,并在此基础上去除了文本中的无意义词。在分析已有关键词提取方法的基础上,引入了一种基于词的统计和分布的权重计算方式实现了文本关键词的提取。综合考虑关键词、句子在文章中的位置以及特殊标记等因素,采取直接从文中提取句子的方法实现了文摘的自动获取。针对重复的文本情报,在计算文本特征句最长公共子序列的基础上实现了文本去重。本文同时分析了SVM分类器所存在的问题,在SVM分类器两类可分的基础上通过结合二叉决策树实现了多类可分,并且设计了SVM决策树的生成算法,然后在此基础上实现了文本分类。综合本文中研究的知识和技术,设计和实现了面向企业竞争情报的Web文本挖掘模块,并应用于企业竞争情报分析与挖掘服务系统中。
其他文献
随着中国铁路事业的飞速发展,对列控系统安全性的要求也越来越高。列控系统的通信安全直接影响到列车的运行效率和行车安全。作为达到安全完整性等级4的通信协议,Subset098安
随着互联网技术的发展,图像数据越来越庞大,如何高效的处理和利用这些图像数据成为了图像处理领域的重要课题。作为图像处理领域的分支,图像分类技术由于在各个领域都有重要
呼叫中心利用CTI技术,将通信网络和计算机网络的多项功能融合在一起,形成一个完整的综合信息服务系统。随着计算机和信息技术的飞速发展,呼叫中心在现在各企业中的应用也越来越
MPLS是一种利用多协议标签交换来进行快速数据包交换和路由的体系,它为网络数据流量提供了目标、路由、转发和交换等能力。它提供了一种独特的方式:将IP地址映射成为简单的具
互联网的迅速发展,移动存储设备的普及,给人们的生活带来了越来越多的便利。然而,未经版权所有人的许可对数字产品的非法复制、修改等盗版行为也日趋严重。因此,版权保护等信息安
目前,信息系统之间难以进行有效地互联、互通和互操作,数据和信息共享存在壁垒,面对日益严重的“信息孤岛”现象,系统集成是必由之路。系统集成需求和运行环境的动态多变,对其提出
分类所关心的一个根本问题是如何有效地提高分类系统的泛化能力。尽管传统的分类技术在一些领域已经得到了成功应用,其泛化能力也得到一定程度的认可,但是随着时代的进步和科
人类的视觉系统是一种多目标跟踪系统。为了便于大脑在最短时间内获得关键信息,人眼会将注意力集中到少数几个区域或物体,这个行为称作视觉注意。这些区域或物体在场景中就构
低密度校验(Low-Density Parity-Check, LDPC)码是一类逼近香农限的编码,已成为当今信道编码领域的研究热点之一。利用结构化方法构造的一些LDPC码具有循环或准循环结构,不仅性
MACS控制系统是基于现场控制层的DCS产品。该系统是一套全能综合集成化的信息系统,广泛应用于工业企业的流程控制中。它遵从相关的标准及规范进行设计,采用先进的现场总线技