基于Web信息提取的企业竞争情报获取研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:yan19891989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展和普及,网络已成为人们生活中不可缺少的一部分。网络中存在着各式各样的信息,这些信息以网页为载体,呈现在用户面前。网页中蕴含的丰富信息为企业竞争情报系统提供了新的情报信息来源。本论文的目的就是研究一种通用的企业竞争情报获取方式。在研究现有的Web信息提取技术的基础上,本文提出了基于DOM树和DBSCAN算法的Web信息提取算法,接着研究并构建了基于Web信息提取的企业竞争情报获取模型。首先,本论文全面系统的阐述了Web信息提取和企业竞争情报的研究现状,介绍了企业竞争情报系统和企业竞争情报获取的理论基础,并依次介绍了本论文将使用的几种网页数据处理技术,包括网络爬虫技术、Jsoup网页解析技术、DOM和DBSCAN算法。接下来详细介绍了Web信息提取的基本概念、技术分类和评价标准。其次,本论文针对互联网中网页结构多样、易变等因素,通过研究网页结构中存在的一般规律,并结合DOM树和DBSCAN聚类算法提出了新的Web信息提取算法。并详细介绍了算法中的几个环节,包括Web页面预处理、构建DOM树及分段文本内容获取、基于DBSCAN算法的网页内容提取。最后通过实验证明该算法能有效地获取网页中的正文文本信息,不依赖于网页结构,具有较强的通用性。最后,针对某一行业内的企业,基于网络爬虫技术、网页解析技术和Web信息提取算法构建企业竞争情报获取模型。该模型首先根据预留的网站网址,通过网络爬虫获取该网址下的所有链接。然后通过网页标题来判断网页是否与行业领域相关,初步筛选网页。对筛选后的网页进行网页主要内容获取,即获取该网页的正文文本信息。再根据预留的企业关注信息,提取网页正文文本中的企业竞争情报信息。最后基于该模型设计并实现了企业竞争情报获取原型系统,通过实验验证基于Web信息提取的企业竞争情报获取模型的正确性。
其他文献
多方保密计算是近几年国际密码学界的一个研究热点。它的应用范围很广,比如数据挖掘、科学计算、数据库利用等等,已成为密码学领域里一个极端重要的工具,计算领域里一个必不
随着传统身份认证技术出现的漏洞和不足,身份安全问题地解决迫在眉睫。因此人们开始对生物特征认证技术进行研究,作为最可靠的生物特征认证技术之一的虹膜识别,因其唯一性、稳定
学位
20世纪90年代后期出现了一种新兴编程技术--面向Aspect编程(Aspect-Oriented Programming,AOP),成为软件工程领域研究热点之一。随着AOP技术的日趋完善,迫切需要一种贯穿需求
学位
在当今计算机和Internet产业的发展中,嵌入式系统成为一个重要的发展领域,而嵌入式实时操作系统(RTOS)在嵌入式系统软件体系中起着越来越重要的作用。μC/OS-Ⅱ是一个公开源
学位
排序是信息检索的核心问题,因为一个搜索系统的好坏主要由它的排序结果的正确率来评价。信息检索中提出了许多排序模型。直到最近,被称为“排序学习”的机器学习技术被深入应用
随着Internet的飞速发展,Web的信息量越来越大,通用搜索引擎将面临信息采集、检索等方面更大的挑战。随着电子商务的蓬勃发展,网上商品的交易越来越频繁,更多的消费者通过搜索引
学位
短文本分类问题是短文本应用领域中亟待解决的问题,也是具有挑战性的关键问题之一,具有重要的应用前景。由于短文本自身长度较短的特点,其描述概念能力弱,缺乏一定的语义关系
学位
VoWLAN(Voice over WLAN)是当前VoIP(Voice over IP)和无线局域网研究中的一个热点,它结合多媒体通信、计算机网络、无线传输、嵌入式系统开发等研究领域,主要研究基于无线局域
学位
随着计算机和网络技术的快速发展,远程会议、视频点播和网络教育等实时多媒体应用日益广泛。这些实时多媒体应用要求将同样的数据从一个源点同时传输给大量的目的节点,促使了多
学位
网络的广泛运用推动了分布式计算的快速发展。网格作为分布式计算的重要支撑技术受到广泛的关注,它不仅突破了单个计算机计算能力的限制,而且将分布的资源组织起来,协同地解决大
学位