面向金融信息的主题爬虫研究与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiaotaowang33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网络上的Web资源以膨胀性的方式增长,面对庞大的Web网页资源,传统的全文搜索引擎,难以保证搜索结果的精确度和召回率。于是,人们提出使用主题搜索引擎来解决这个问题,网络中的Web网页是按类别来组织的,将搜索引擎建立在其中的一个或几个类别的网页资源之上,这样就缩小了搜索的范围和规模,可以有效的发挥搜索引擎的功能,其中网页资源的获取由主题爬虫来完成。主题爬虫下载的网页资源的主题类别是根据需求来定义的,一般应用于主题搜索引擎的主题类别是根据常用的分类来描述的,同样,也可以根据用户的需求来定制,如根据用户感兴趣的内容可以定制个性化的主题爬虫。本文以常用的金融类别为目标主题,该主题类别特征是包含多个子主题,如股票、基金、期货等,而且网络中的数据资源丰富,建立金融网页库可以用于聚类分析,数据挖掘等,在实际应用中对这些数据的分析可以作为人们进行投资的参考,有很好的应用前景。本文研究的目的是如何实现一个金融主题爬虫系统,能全面的获取网络中的金融主题网页资源,而且尽量提高获取网页库的主题精确度。经过分析,主题爬虫研究的重点是对网页和链接的主题相关性分析,主要从文本(包括网页内容文本和链接锚文本)和链接结构两个方面来分析,其中对前者的分析,通过建立文本分类器,判断文本与主题的相关性;后者主要是利用PageRank算法和HITS算法来评价链接与主题的相关性;根据网页和链接与主题的相关性,来对它们进行过滤。本文对网页进行分块,提取网页链接块锚文本,根据对链接块锚文本的主题相关性评价的结果作为块内各链接与主题的相关性,并针对这种文本的处理提出主题相关性密度算法。对网页内容文本的主题相关性的评价使用朴素贝叶斯算法进行处理。根据最后的实验数据分析,我们可以发现,这两种方法在文本分类上都能使金融主题的召回率达到90%以上,应用于主题爬虫中可以保证下载网页的主题覆盖率,而且系统实验获得金融网页的主题精确度在85%以上;这就说明本文提出的主题相关性密度的方法在链接块锚文本的应用上是很有效的。
其他文献
有机化学是高等院校很多专业的一门基础理论课,内容丰富,社会应用性强.教育的发展和社会的需要对化学教学提出了新的要求,即怎样使教育产品-学生能适应社会的需求.而素质教育
科学技术也能成为迷信?    不幸的是,在广电面临市场变动,内部革新的今天,科学技术正被越来越多的人迷信!且这种迷信如同瘟疫般在广电行业中悄悄蔓延。  进入21世纪,计算机及微电子技术的迅猛发展让一直较为封闭的广电行业突然警醒,在又惊又喜的双重作用下,广电系统从上到下,对新技术的发展给予了前所未有的关注,其中不少人开始走入迷信技术的另外一个极端。  技术迷信一方面让广电对新技术可能带来的巨大市场潜
随着软件定义网络(software-defined network,简称SDN)规模的扩大和上层应用的复杂化,单个控制器已经不能满足网络要求,成为网络性能的瓶颈。多控制器集群管理SDN有很多优势,但实现
近年来,流形学习用于人脸识别引起了广泛关注,有研究表明,人脸很有可能是位于一个非线性的流形上,这提示我们可以将原始数据集对应的高维空间的流形映射至低维空间的流形,通
网络信息技术的不断发展与新媒体时代的到来,既为传统媒体的发展迎来的新的机遇,但同时也面临着巨大的挑战.那么在这种严峻的市场发展背景下,传统媒体要想获取健康、长足的发
人脸建模和动画技术的研究已有30年的历史,随着虚拟现实,影视娱乐,可视电话,人机交互等应用的发展,这一研究领域越来越受到人们的关注。本文致力于基于三维重建的人脸表情合成技术
卫星网络具有全球覆盖能力,并且由于科技日益发展,卫星网络已能够支持音频、图像、视频多种通信业务,已经成为新一代的全球移动通信系统的重要组成部分。卫星网络中有多个节
九月初的深圳,一场阵雨过后,天空被洗刷的十分干净,空气中弥漫着南方树木独有的清新味道。9月5日上午,深圳特区,CCTV《新闻联播》天气预报广告华南地区企业见面会在深圳马可
新媒体视域下的纸媒面临着许多挑战和机遇.本文围绕新媒体视域下的纸媒发展展开分析,进而对其转型之路进行讨论,希望为其他纸媒工作者提供参考和帮助.
法治宣传是提高全民法律素质、贯彻依法治国理念的重要举措.政法新闻作为新媒体背景下法治宣传的主要媒介,理应有所作为.本文主要针对新媒体背景下政法新闻面临的困境进行深