基于动漫作品的数据收集与分析

来源 :山东大学 | 被引量 : 0次 | 上传用户：tseysaw

【摘要】

：

【作者】

：

周川

【出处】

：

山东大学

【发表日期】

：

2019年09期

【关键词】

：

数据采集数据存储数据分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本系统目标为收集全网范围内的几乎所有的动漫作品数据,构建全面、完整、覆盖面广的数据系统。同时基于该数据系统对对大量的作品进行数据分析,发掘优秀的动漫题材和动漫作品,进而为投资者提供高效的投资建议,为原创作者提供创作题材建议,解决电影投资者与原创作者的广泛诉求。本系统通过数据采集工具,针对不同网页结构,设计数据采集规则,共设计了 1000多个数据采集规则,收集了全网范围内的动画和漫画数据,包括19个漫画网站,10个动画网站。本文选取了适中难度的数据采集规则,论述了构建数据采集规则的过程,在过程中穿插工作中积累的经验,可能遇到的问题,和针对问题如何进行规则设计。并且对多种设计思路进行对比,讲述不同设计的优缺点,最终选择出最优的规则设计方案。本系统积累了大量的数据采集规则,如何合理安排数据采集任务,充分利用有限的数据云采集集群节点,成为重要问题。本系统就该问题,对数据采集任务调度功能进行了详细的论述,包括如何设置定时采集任务,以何种策略选择任务开启时间,如何安排数据采集任务先后顺序等重点问题。任务调度功能,实现了对大批量数据采集规则开启任务时间的规划控制,避免了数据采集任务的积压,提高了数据云采集集群节点的利用率、避免了资源浪费。本系统由于大量的定时数据采集任务运行在云端,导致云端数据库不断有大量的新数据存入,如何合理的将云端的数据,有计划的导入本地数据库成为重要问题。本系统通过数据自动导出功能,每间隔一个小时从云端数据库将数据导入本地mysql数据库,该功能避免了大量的、重复性的人工导出数据的工作,从而也避免了大数据量的数据同时导入本地mysql数据库,造成数据堵塞的情况,减轻了本地数据库的压力。本系统的mysql数据库存储了大量的结构简单的原始数据,这些原始数据不足以完全支撑数据需求者的要求。而本系统的数据分析功能,实现了对mysql数据库中的原始数据的分析加工。数据分析的核心算法模型是以熵权法、标准离差法、逼近理想点排序法、灰色关联法为基础构建的,在勾选过程中,通过组合不同算法,搭建众多数据分析模型,通过对比各个数据模型的分析结果,选出最佳的数据模型,将该模型作为固定脚本执行数据分析的工作,并将分析后的数据存回数据库,供数据需求这进行数据读取和使用。同时对粉丝读者的漫画评论进行了文本分析,绘制词云图和计算出语料的关键词,用于概括总结粉丝读者对每部作品的观点,能够有效的筛选出受粉丝欢迎的作品。

其他文献

我国3D电影投资可行性的实证研究

本文通过多元统计分析方法对我国3D电影投资可行性进行了定量研究。基于宏观层面,分别从影院数、银幕数、票房收入、上演数等方面分析了我国3D电影的现状;基于微观层面,利用

期刊

3D电影因子分析聚类分析投资可行性

面向对象分类方法在四川丘陵区森林分类中的应用研究

森林资源调查作为一项重要的国家资源调查,目的是全方位了解全国林业资源利用状况,掌握真实的林业资源数据,为国家宏观掌控森林资源的消耗、制定国民生产计划以及指导和改善

学位

面向对象多尺度分割信息提取eCognition

航班运行非正常情况下飞行签派应急预案研究

<正>航空突发事件时有发生,特别是作为公司的运行控制中心。飞行签派员所面对的各类非正常情况比其他部门多,并且所担任的责任也是相当大的。几乎所有的应急事件,签派员都参

期刊

飞行签派应急事件决策权职业化建设签派员签派放行非正常应急预案

国家的仪式——《新闻联播》的传播文化学解读

从某种意义上,作为国家政治权威与秩序象征的《新闻联播》,是中国人日常生活必不可少的一个仪式。本文运用传播文化学理论,以"国家仪式"的视角,分别从电视仪式与政治权威秩序

期刊

《新闻联播》仪式传播文化

克什米尔争端之原委(续)

<正> 印巴两国为缓和因印控克区动荡而造成的紧张关系,曾数度展开各种谈判、对话。1990年7月-1998年11月,两国共举行了12轮外秘级会谈(后因1999年夏季的卡吉尔冲突而中断至今

期刊

克什米尔争端巴基斯坦阿富汗人武装组织领导人克什米尔地区穆斯林兄弟会

晚清政府对云南边省群体性事件的社会控制研究

晚清处于近代中国社会转型的一个重要时期,此际出现群体性事件的大爆发,正是基于传统封建帝制衰落和西方列强入侵背景下所形成的“冲击—反应”模式的一种内部回应。本文以云

学位

晚清政府群体性事件社会控制云南结构性紧张

新环境下的明清座椅发展思考

本研究基于对明清椅的种类、用料选材、制作工艺以及发展脉络进行研究的基础上,分析明清时期座椅制作的指导思想。并针对当下人的思想、行为特征以及家居环境的变化,提出明清

期刊

明清座椅木材制作工艺文化传承

痕迹检验鉴定在侦察破案中的证据作用研究

针对痕迹检验鉴定在侦察破案中的应用作用,结合实践,做了简单的论述,提出了如何有效运用痕迹检验鉴定技术的策略。从应用实际来说,痕迹检验鉴定发挥着积极的作用,不仅能够为

期刊

痕迹检验鉴定侦察破案证据作用

华南区域科研集群管理信息化的初步研究

区域科研集群是近几年科研单元与地方合作的新趋势。如何有效集成、共享优势创新资源,促进科技成果转移转化和规模产业化成为了集群管理的重要课题。基于由中国科学院和广东

期刊

区域科研集群产业集群管理信息化区域经济

读书会使我们的生活更圆满——我们的读书现状和老一代学者的读书生活(上)

我们约请在中央电视台"百家讲坛"栏目热播的《玄奘西游记》主讲人钱文忠教授写一篇文章,谈谈他个人的读书体会。当我们收到这篇剖析国人读书现状以及介绍老一辈学人读书生活

期刊

百家讲坛钱文忠

基于动漫作品的数据收集与分析

与本文相关的学术论文