文本数据实时多维检索系统设计与实现

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:YSCX0825
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和信息技术的不断普及,全球大数据进入高速发展时期,数据总量每年增长50%。其中以社交平台(微信、微博等)为代表的文本数据占了绝大部分。对于包含大量信息的海量文本数据,用常规文本检索方法通常不能取得理想的效果。如何对海量文本数据有效检索,以便进一步深入挖掘数据潜在价值亟待解决。业界为此进行了多方面的探索,其中微软Concept Graph技术在此领域研究较深入且有别于传统的文本数据解决思路。微软概念图旨在将文本格式实体映射到具有一些概率的语义概念类别中。本文结合现有数据爬取、文本处理等技术,爬取电商扶贫实时文本数据,与微软Concept Graph技术相结合提出一种全新的抽取实时文本数据维度的新思路,并结合抽取维度信息构建文本数据多维检索系统。该方案从文本数据的获取、维度抽取及多维检索系统构建两方面进行研究:1)设计文本数据源存储格式规范,根据系统存储规范及多维检索系统需求设计数据采集模块。研究微博、微信平台的反爬措施,结合现有爬虫技术,将Redis内存数据库、Scrapy框架、云打码平台等技术相结合,细化爬取时间片,构造用户可自定义主题关键字的百万级数据量高性能健壮爬虫,可以实时高效爬取微博、微信数据;2)结合K-means算法、微软概念图等技术,抽取出文本数据集中的维度信息,构建文本数据多维检索系统中多维检索模块。用户可自行组合“维度”、“时间”、“地区”等信息检索出匹配数据集,同时用户也可以导出文本数据集以便后续进行精细化、定制化分析。针对微博微信数据实时爬取困难,本文通过将Flask框架与Redis内存数据库相结合维护Cookies池增强爬虫抵御策略,并结合Scrapy增加爬取效率;针对微博微信平台对自身历史数据的屏蔽,通过细化爬取时间片实现大批量、高性能的健壮爬虫爬取微博、微信数据;针对常规的文本数据维度抽取困难,本文将文本聚类方法与微软概念图技术相结合,通过K-means算法聚类出文本数据集的主题关键字簇输入到微软概念图中得到关键字簇的维度得分。再通过维度计算公式计算出数据集的维度信息,通过这些维度信息构建多维检索系统。该方法有较强的实用性与可扩展性,为文本数据的多维检索提供新的思路,提高文本数据检索效率。
其他文献
轻型屋面板可用于工业、商业和民用各类建筑结构中,在国内相关行业中处于领先地位。推动了我国轻型节能建材行业的发展。在此阐述了现行轻型屋面板的施工过程及其质量控制措
针对变转速工况下滚动轴承的故障诊断问题,提出一种将线调频小波路径追踪算法与阶比循环平稳解调方法相结合的滚动轴承故障诊断方法.该方法先利用线调频小波路径追踪算法提取
大熊猫繁殖能力极低,种群数量较少,虽然近年来大熊猫人工繁育技术已取得显著成果,但总体还存在大熊猫屡配不孕等繁殖问题。阴道定植着数量巨大、不同种属的微生物,其对机体健
<正> 根据A、C·尼尔森公司的调查估计,1980年,美国7630万个家庭,拥有电视机的约占美国48个本土州家庭总数的97.8%。而且,其中五分之四的家庭拥有两台以上的电视机,尽管70年代
融资约束同生产率一样,都是阻碍企业进入国际市场的重要壁垒。在新新贸易理论基础上,构建融资约束对企业国际化选择影响的理论模型,利用2004年到2009年中国工业企业数据库和
[目的]改进联苯肼酯合成工艺,缩短合成路线,提高总收率。[方法]以4-羟基联苯为起始原料,经硝化、甲氧基化、硝基还原、重氮化和酰胺化反应得到目的产物联苯肼酯。[结果]经1H
有机酸是土壤中溶解性有机质的重要组分。有机酸参与土壤Cd的沉淀-溶解、吸附-解吸、配位络合等过程而影响Cd生物有效性。由于农田土壤环境的复杂性和土壤类型的多样性,目前
乌鳢常见病害的防治乌鳢,俗称才鱼、黑鱼,也有地方称它乌鱼或生鱼,为凶猛的肉食性鱼类。长期以来,在养殖业上当作敌害鱼类清除。随着水产养殖业的发展和人们生活水平的提高,它又以
工程建设施工阶段质量监理效果最终评价就是衡量工程实体质量总目标是否完成,在此介绍了水利工程施工阶段的质量控制。
声乐是一种用人声作为乐器表达感情的音乐形式。演唱不是单纯的生理技能的运动,而是演唱者生理与心理相配合,协调运动的过程,心理因素的运用与培养对声乐演唱和学习有很重要