基于大数据平台的中文文本分析系统研究与实现

被引量 : 2次 | 上传用户:playmud
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪,互联网技术的发展突飞猛进,互联网已经与各行各业息息相关,同时,连接在互联网上的各种设备在源源不断产生着数据,造成数据的爆炸式增长,这其中就包括大量的文本信息。这些文本信息以日志、评论、文章等形式呈现在互联网上,由于互联网与人们的生活越来越紧密,网络对社会热点的影响也越来越大,如何分析网络观点、预测网络情绪并正确引导网络舆情成为当今社会乃至全世界亟需解决的问题,其中对文本分析技术的研究是解决这一问题的关键点。但是,现阶段的文本分析方法大都是使用统计语言模型对文本建模,再结合机器学习算法训练模型,其效果依赖语料质量,可复用性差,而且模型训练需要耗费大量计算时间,在算法的并行化研究方面缺乏可行的解决方案。为此,本文以神经网络语言模型为基础,并结合Spark大数据平台,设计并实现一套中文文本分析处理的综合系统。本文主要工作包括:(1)研究基于神经网络语言模型的文本倾向分析算法,并设计了融合LDA模型的Doc2vec文本特征表示算法。(2)研究文本分析算法的并行化技术,利用Spark大数据平台设计算法的并行化模型。(3)研究中文文本倾向分析流程,设计并实现基于大数据平台的中文文本分析系统,包括语料摄取、语料标注、语料存储、模型训练、模型验证等模块。(4)对原型系统进行验证、测试与分析。为了验证本课题的可行性,本文通过对原型系统中设计的融合LDA模型的Doc2vec文本特征表示算法进行准确度测试,实验结果表明,经过融合后的文本表示模型,具有很高的辨识度,其ROC曲线的AUC值达到0.95。同时,本文对系统涉及的文本分析相关算法进行并行化测试,测试结果显示,并行化后的算法可以大大提高系统的效率。
其他文献
19世纪中后期,环太平洋的多个国家都发现了金矿,引发了有史以来最大的世界性淘金狂潮,也吸引了中国东南沿海地区大量华工远赴海外,形成了近代华人第一次海外移民的高潮。虽然
目的分析腹腔镜手术联合药物治疗子宫内膜异位症临床效果的Meta。方法计算机检索中英文数据库,查找腹腔镜手术联合药物治疗子宫内膜异位症患者的随机对照试验。检索时间设定
本文以新型高合金低碳轴承钢M50NiL钢的实际应用为背景。针对在该钢表面如何快速产生深度较深且力学性能良好的改性层问题进行研究。由于M50NiL钢不适用于在高温、高氮氢比、
<正> 记得一九六三年,在人民大会堂召开全国卫生科技规划会议期间,一天,我们有十来位同志突然接到通知:周总理要来同我们见面、座谈。大家真是高兴极了。稍许,总理来了,很亲
<正> 21世纪是创新的世纪,创新的世纪需要创新的领导人才。只有具有创新意识、创新精神和创新能力的领导者,才能容忍创新、支持创新、鼓励创新、带头创新和推动创新,担负起时
结合生产实际,总结了当地拱棚结构及建造要求,并对几种高效生产模式和栽培管理技术进行了详细的介绍。
目的:探讨截瘫三联针法在外伤性脊髓损伤患者中的临床效果。方法:将纳入的64例外伤性脊髓损伤患者随分为观察组和对照组各32例,对照组给予常规针刺法,观察组给予截瘫三联针法
目的:探讨腹腔镜治疗非寄生虫性脾囊肿的可行性。方法:2007年7月至2010年7月为3例脾囊肿患者行腹腔镜脾囊肿去顶减压术,用超声刀切开囊壁,完全暴露囊腔,在囊壁与正常脾脏组织
沟通是现代化管理中一种有效的协调工具,沟通有助于企业增强凝聚力,实现领导者职能,在整个管理实践的过程之中,起着重要的桥梁作用。改革开放以来,闽南小型民营企业发展快速,成为
目的:探讨三氧化二砷(As2O3)对人雌激素受体α(ERα)阴性的乳癌细胞株MDA-MB-468进行药物诱导后ERα启动子CPG岛的甲基化状态及蛋白的变化。方法:常规培养MDA-MB-468细胞,采用MTT法