金融博客的分类筛选

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gaolch004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国内投资风气的兴起,越来越多的人关注金融信息。在众多的金融产品中,股票的投资回报率最高,因此关注股票的投资者最多。那么,挖掘出和股票相关的资讯就变得很有必要。而在所有资讯中,博客文章占了很大比重。因此挖掘出和股票相关的博客文章很有价值。但是如果只是把金融博主写的文章展示给投资者,存在诸多问题。首先:金融博主写的文章有许多不是关于金融的;其次:许多金融文章提到了许多只股票,但通常说来,这种文章和每只股票都不相关;另外:即使文章中提到了某只股票的名称,也未必和这只股票相关,还可能具有歧义。  论文设计并实现了一个面向金融领域博客的股票分类筛选系统,先使用改进的爬虫获取金融博客文章,然后用改进的个股分类算法对博客文章按照股票分类,最后对查询结果进行排序后展示给投资者。本文的研究内容主要包括以下几方面:  (1)分析了博客爬虫存在的一般问题,提出了一种新的爬取策略,提高了股票分类系统的运行效率。  (2)对传统的分类算法进行改进,提出了一种基于特征融合的个股分类算法。将通用文本特征和金融领域特征结合起来,解决了通用分类方法用于个股分类准确率不高的问题。  (3)提出了基于金融领域特征的博客文章排序算法。该算法综合考虑了多个金融指标,改进了排序的效果。  在博客爬虫的评测中,本论文把改进的博客爬虫和通用的爬虫做了对比,证明了基于多特征的博客爬虫的优越性;在个股分类中,首先构建了金融博客个股分类语料库,然后在该语料库上把通用分类方法和考虑了金融领域特征的个股分类算法进行对比,试验结果表明,该方法优于通用方法,达到了预期效果。最后对个股分类后的博客文章排序显示。
其他文献
本文研究了有时间间隔的事件的挖掘问题。假设原始数据库由事件序列集构成,其中事件发生在时间间隔内,我们的目的是挖掘出数据库中频繁发生的间隔事件间的时间关联规则。之所以
中医有“望、闻、问、切”四诊,是传统文化的精华,具有简单、方便、非侵入等优点,但比较主观,缺乏客观诊断标准。随着信息科技领域的不断发展,为中医的数字化、科学化、现代
作为一门无监督学习技术,聚类广泛应用在很多领域中,包括数据压缩,文件检索,人工智能,临床图像和微阵列分析等多方面。随着信息技术的飞速发展,在这些领域中积累的数据量将不
随着经济的发展,人们越来越关注健康问题,网络作为现代化信息提供的主要来源,可以让人们快速的获取健康知识,但是随着网络信息成爆炸式增长,如何快速准确地选择自己需要的信
无线传感网络的覆盖控制是无线传感器网络的一个基本问题,它反映了传感器网络所能提供的“感知”服务质量。在野外、敌对等环境中布置无线传感器网络的时候,往往只能采用空投
随着互联网时代的到来,智能手机在世界上的普及率也越来越高,而Android智能手机操作系统则凭借其优良的性能,获得了巨大的市场份额。可随着智能手机的发展,越来越多的手机恶
美国国防部的可信计算机系统评估标准TESEC认为访问控制是评价信息系统安全的主要指标。访问控制根据已定的系统安全策略的要求,对每一个用户提出的的访问请求做出是否允许的
计算机网络技术的迅猛发展,分布式系统应用的不断拓展,分布式应用对高可靠性和可用性的要求越来越迫切。一个高可用性的系统要求在任何情况下服务不会被中断并且能够提供正确
时间序列是按时间先后顺序将某指标时间点上的数值排列而成的数列,时间序列分析是一种动态数据处理的统计方法,它根据历史数据来判断下一个时间点的数值,从而估计时间序列变
当前的大多数中文分词系统都是基于词典的,但是其不能正确的切分文本中新词(字典中不包括)。这些基于词典的分词系统在处理包含较多新词的文本时,效果较差。  当前新词识别