论文部分内容阅读
本系统目标为收集全网范围内的几乎所有的动漫作品数据,构建全面、完整、覆盖面广的数据系统。同时基于该数据系统对对大量的作品进行数据分析,发掘优秀的动漫题材和动漫作品,进而为投资者提供高效的投资建议,为原创作者提供创作题材建议,解决电影投资者与原创作者的广泛诉求。本系统通过数据采集工具,针对不同网页结构,设计数据采集规则,共设计了 1000多个数据采集规则,收集了全网范围内的动画和漫画数据,包括19个漫画网站,10个动画网站。本文选取了适中难度的数据采集规则,论述了构建数据采集规则的过程,在过程中穿插工作中积累的经验,可能遇到的问题,和针对问题如何进行规则设计。并且对多种设计思路进行对比,讲述不同设计的优缺点,最终选择出最优的规则设计方案。本系统积累了大量的数据采集规则,如何合理安排数据采集任务,充分利用有限的数据云采集集群节点,成为重要问题。本系统就该问题,对数据采集任务调度功能进行了详细的论述,包括如何设置定时采集任务,以何种策略选择任务开启时间,如何安排数据采集任务先后顺序等重点问题。任务调度功能,实现了对大批量数据采集规则开启任务时间的规划控制,避免了数据采集任务的积压,提高了数据云采集集群节点的利用率、避免了资源浪费。本系统由于大量的定时数据采集任务运行在云端,导致云端数据库不断有大量的新数据存入,如何合理的将云端的数据,有计划的导入本地数据库成为重要问题。本系统通过数据自动导出功能,每间隔一个小时从云端数据库将数据导入本地mysql数据库,该功能避免了大量的、重复性的人工导出数据的工作,从而也避免了大数据量的数据同时导入本地mysql数据库,造成数据堵塞的情况,减轻了本地数据库的压力。本系统的mysql数据库存储了大量的结构简单的原始数据,这些原始数据不足以完全支撑数据需求者的要求。而本系统的数据分析功能,实现了对mysql数据库中的原始数据的分析加工。数据分析的核心算法模型是以熵权法、标准离差法、逼近理想点排序法、灰色关联法为基础构建的,在勾选过程中,通过组合不同算法,搭建众多数据分析模型,通过对比各个数据模型的分析结果,选出最佳的数据模型,将该模型作为固定脚本执行数据分析的工作,并将分析后的数据存回数据库,供数据需求这进行数据读取和使用。同时对粉丝读者的漫画评论进行了文本分析,绘制词云图和计算出语料的关键词,用于概括总结粉丝读者对每部作品的观点,能够有效的筛选出受粉丝欢迎的作品。