论文部分内容阅读
随着网络和信息技术的不断普及,全球大数据进入高速发展时期,数据总量每年增长50%。其中以社交平台(微信、微博等)为代表的文本数据占了绝大部分。对于包含大量信息的海量文本数据,用常规文本检索方法通常不能取得理想的效果。如何对海量文本数据有效检索,以便进一步深入挖掘数据潜在价值亟待解决。业界为此进行了多方面的探索,其中微软Concept Graph技术在此领域研究较深入且有别于传统的文本数据解决思路。微软概念图旨在将文本格式实体映射到具有一些概率的语义概念类别中。本文结合现有数据爬取、文本处理等技术,爬取电商扶贫实时文本数据,与微软Concept Graph技术相结合提出一种全新的抽取实时文本数据维度的新思路,并结合抽取维度信息构建文本数据多维检索系统。该方案从文本数据的获取、维度抽取及多维检索系统构建两方面进行研究:1)设计文本数据源存储格式规范,根据系统存储规范及多维检索系统需求设计数据采集模块。研究微博、微信平台的反爬措施,结合现有爬虫技术,将Redis内存数据库、Scrapy框架、云打码平台等技术相结合,细化爬取时间片,构造用户可自定义主题关键字的百万级数据量高性能健壮爬虫,可以实时高效爬取微博、微信数据;2)结合K-means算法、微软概念图等技术,抽取出文本数据集中的维度信息,构建文本数据多维检索系统中多维检索模块。用户可自行组合“维度”、“时间”、“地区”等信息检索出匹配数据集,同时用户也可以导出文本数据集以便后续进行精细化、定制化分析。针对微博微信数据实时爬取困难,本文通过将Flask框架与Redis内存数据库相结合维护Cookies池增强爬虫抵御策略,并结合Scrapy增加爬取效率;针对微博微信平台对自身历史数据的屏蔽,通过细化爬取时间片实现大批量、高性能的健壮爬虫爬取微博、微信数据;针对常规的文本数据维度抽取困难,本文将文本聚类方法与微软概念图技术相结合,通过K-means算法聚类出文本数据集的主题关键字簇输入到微软概念图中得到关键字簇的维度得分。再通过维度计算公式计算出数据集的维度信息,通过这些维度信息构建多维检索系统。该方法有较强的实用性与可扩展性,为文本数据的多维检索提供新的思路,提高文本数据检索效率。