基于动漫作品的数据收集与分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:tseysaw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本系统目标为收集全网范围内的几乎所有的动漫作品数据,构建全面、完整、覆盖面广的数据系统。同时基于该数据系统对对大量的作品进行数据分析,发掘优秀的动漫题材和动漫作品,进而为投资者提供高效的投资建议,为原创作者提供创作题材建议,解决电影投资者与原创作者的广泛诉求。本系统通过数据采集工具,针对不同网页结构,设计数据采集规则,共设计了 1000多个数据采集规则,收集了全网范围内的动画和漫画数据,包括19个漫画网站,10个动画网站。本文选取了适中难度的数据采集规则,论述了构建数据采集规则的过程,在过程中穿插工作中积累的经验,可能遇到的问题,和针对问题如何进行规则设计。并且对多种设计思路进行对比,讲述不同设计的优缺点,最终选择出最优的规则设计方案。本系统积累了大量的数据采集规则,如何合理安排数据采集任务,充分利用有限的数据云采集集群节点,成为重要问题。本系统就该问题,对数据采集任务调度功能进行了详细的论述,包括如何设置定时采集任务,以何种策略选择任务开启时间,如何安排数据采集任务先后顺序等重点问题。任务调度功能,实现了对大批量数据采集规则开启任务时间的规划控制,避免了数据采集任务的积压,提高了数据云采集集群节点的利用率、避免了资源浪费。本系统由于大量的定时数据采集任务运行在云端,导致云端数据库不断有大量的新数据存入,如何合理的将云端的数据,有计划的导入本地数据库成为重要问题。本系统通过数据自动导出功能,每间隔一个小时从云端数据库将数据导入本地mysql数据库,该功能避免了大量的、重复性的人工导出数据的工作,从而也避免了大数据量的数据同时导入本地mysql数据库,造成数据堵塞的情况,减轻了本地数据库的压力。本系统的mysql数据库存储了大量的结构简单的原始数据,这些原始数据不足以完全支撑数据需求者的要求。而本系统的数据分析功能,实现了对mysql数据库中的原始数据的分析加工。数据分析的核心算法模型是以熵权法、标准离差法、逼近理想点排序法、灰色关联法为基础构建的,在勾选过程中,通过组合不同算法,搭建众多数据分析模型,通过对比各个数据模型的分析结果,选出最佳的数据模型,将该模型作为固定脚本执行数据分析的工作,并将分析后的数据存回数据库,供数据需求这进行数据读取和使用。同时对粉丝读者的漫画评论进行了文本分析,绘制词云图和计算出语料的关键词,用于概括总结粉丝读者对每部作品的观点,能够有效的筛选出受粉丝欢迎的作品。
其他文献
本文通过多元统计分析方法对我国3D电影投资可行性进行了定量研究。基于宏观层面,分别从影院数、银幕数、票房收入、上演数等方面分析了我国3D电影的现状;基于微观层面,利用
森林资源调查作为一项重要的国家资源调查,目的是全方位了解全国林业资源利用状况,掌握真实的林业资源数据,为国家宏观掌控森林资源的消耗、制定国民生产计划以及指导和改善
<正>航空突发事件时有发生,特别是作为公司的运行控制中心。飞行签派员所面对的各类非正常情况比其他部门多,并且所担任的责任也是相当大的。几乎所有的应急事件,签派员都参
从某种意义上,作为国家政治权威与秩序象征的《新闻联播》,是中国人日常生活必不可少的一个仪式。本文运用传播文化学理论,以"国家仪式"的视角,分别从电视仪式与政治权威秩序
<正> 印巴两国为缓和因印控克区动荡而造成的紧张关系,曾数度展开各种谈判、对话。1990年7月-1998年11月,两国共举行了12轮外秘级会谈(后因1999年夏季的卡吉尔冲突而中断至今
晚清处于近代中国社会转型的一个重要时期,此际出现群体性事件的大爆发,正是基于传统封建帝制衰落和西方列强入侵背景下所形成的“冲击—反应”模式的一种内部回应。本文以云
本研究基于对明清椅的种类、用料选材、制作工艺以及发展脉络进行研究的基础上,分析明清时期座椅制作的指导思想。并针对当下人的思想、行为特征以及家居环境的变化,提出明清
针对痕迹检验鉴定在侦察破案中的应用作用,结合实践,做了简单的论述,提出了如何有效运用痕迹检验鉴定技术的策略。从应用实际来说,痕迹检验鉴定发挥着积极的作用,不仅能够为
区域科研集群是近几年科研单元与地方合作的新趋势。如何有效集成、共享优势创新资源,促进科技成果转移转化和规模产业化成为了集群管理的重要课题。基于由中国科学院和广东
我们约请在中央电视台"百家讲坛"栏目热播的《玄奘西游记》主讲人钱文忠教授写一篇文章,谈谈他个人的读书体会。当我们收到这篇剖析国人读书现状以及介绍老一辈学人读书生活