基于机器学习的内容处理与监控系统的设计与实现

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:selanyihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,随着移动产品的发展与普及,人们对内容资讯类产品的需求迫切度与日俱增,与之相对的便是内容量的巨大提升,给编辑以及审核人员带来了前所未有的压力。为了适应大数据时代的需求,项目组决定研发一套基于机器学习的内容处理与监控系统,以此来完成内容的自动化过滤与分发,从而为公司的多种内容形态提供高效化、智能化的数据处理流程。论文讲述的是项目组针对当前信息化时代背景,结合当前具有实际应用潜力的机器学习理论设计而成的内容处理与监控系统。文中首先介绍了项目的背景及国内外发展现状,并对整个系统进行功能性需求和非功能性需求的需求分析。之后根据需求分析设计系统架构、划分功能模块、设计系统数据库。接着对具体模块进行详细设计与实现。最后对系统进行测试与验证以确保达到上线要求。笔者独立建立了模块中用到的机器模型,并通过优化算法及损失函数等对模型进行了调整优化。之后测试并验证了机器模型以及核心功能模块,以确保系统达到上线标准。除此以外,笔者参与了系统核心的三大模块的开发,分别为:内容处理(内容过滤与建模)、内容审核、内容监控。在内容过滤中,主要通过N-Gram语言模型对字符进行匹配,利用决策树及Center-Loss函数对模型进行参数的调优;在内容建模中,利用SVM(Support Vector Machine,支持向量机)算法与GRU(Gated Recurrent Unit,门循环单元)模型对数据进行初步的分类与监督,根据不同的内容类型分别采用了 TEXT-CNN以及FAST-RCNN模型进行划分;在内容监控中,为了得到实时数据结果,采用Spark实时框架及MemCache缓存等技术,以此达到监控的性能要求。目前该系统已上线,对于图文的平均判定精确率达到了 95%以上,对于视频的平均判定精确率达到了 80%以上。内容处理速度控制在单篇平均耗时在120s内,实时监控查询速度控制在2s内。
其他文献
随着网络技术不断的发展,个人电脑、平板、手机等逐渐取代了传统的书本、报纸、杂志等,成为了信息流通的新媒介。然而对于视力残障人士,由于先天或者后天的缺陷,使他们丧失了
在新一轮产业革命的浪潮中,我国基于国情提出“中国制造2025”战略,大力推进制造业朝着信息化、智能化的方向发展。对于工控领域应用广泛的可编程自动化控制器(Programmable Automation Controller,PAC)来说,信息化运维对其提出了更高的要求,PAC系统需要扩展内置功能为用户和开发者提供运维服务。特别地,应提供一种在线升级服务以满足开发者的远程程序开发与升级的需求,但当前
带式输送机是煤矿最理想的高效连续运输设备,与其他运输设备(如机车类)相比,具有输送距离长、运量大、连续输送等优点,而且运行可靠,易于实现自动化和集中化控制,尤其对高产高效矿井
近年来随着生活方式及饮食结构的改变,冠心病(CHD)发病率呈增高趋势,且向年轻化发展,但通常在中老年表现出临床症状。CHD明确的危险因素包括年龄、性别、吸烟、高血压、糖尿病
<正>撰写通史是中国史学的传统,清代学者章学诚曾将这种注重于"通",提倡通史撰述的传统概括为"通史家风"。20世纪的中国处于复杂多变的社会历史环境之中,要求通过对历史进程
会议
现有对大脑白质的解剖研究主要基于传统的基于体素的方法(Voxel Based Analysis,VBA),通过选取感兴趣区域(Regions Of Interests,ROIs),计算区域属性均值以完成不同样本间的解剖指标对比。这类方法存在着两个局限,一是样本配准带来的精度缺陷,另一方面是传统分析思想计算指标均值会导致“纤维特性均化”,隐藏全局扩散信息。为了克服传统研究的缺陷,分析完整纤维束的白质
商标评审是由法律授权的专门机构解决商标授权确权纠纷的活动,是商标授权确权程序中的重要环节。商标评审工作对于公平合理地授予或确定商标权利,保护商标权人的合法权益,维护公
报纸
随着投资的活跃,企业对于资金的需求不断放大,融资租赁逐渐成为企业购买设备和融资的重要途径之一。加之近几年国内货币政策逐步收紧,企业普遍缺乏流动资金,融资租赁中的售后
目的:观察止痛健骨方治疗骨转移癌疼痛的临床优势。方法:随机将70例骨转移癌痛患者分为对照组和治疗组,每组各35例。两组均给予盐酸羟考酮缓释片治疗20 d,治疗组在第7-20天给
目的探讨医疗失效模式和效应分析的护理干预在预防老年住院患者跌倒中的应用效果。方法选择老年住院患者488例,按照入院时间分为干预组263例,对照组225例,对照组实施常规护理