【摘 要】
:
现如今,互联网的发展如火如荼,催生了多种网络应用。特别是Web2.0与大数据时代的到来,通过大量的网络新闻数据来分析股市,个人理财,关注国家财政大事。网络新闻这一简单快捷的方式,逐渐受到了越来越多用户的青睐。然而各大新闻网站每天报道的新闻数目繁多,质量良莠不齐,用户不可能耗费精力全部查看进而获得有用信息,用户往往只关注网络热点新闻,因此本文针对网络热点新闻的预测问题展开研究,结合新闻文本的特点,论
论文部分内容阅读
现如今,互联网的发展如火如荼,催生了多种网络应用。特别是Web2.0与大数据时代的到来,通过大量的网络新闻数据来分析股市,个人理财,关注国家财政大事。网络新闻这一简单快捷的方式,逐渐受到了越来越多用户的青睐。然而各大新闻网站每天报道的新闻数目繁多,质量良莠不齐,用户不可能耗费精力全部查看进而获得有用信息,用户往往只关注网络热点新闻,因此本文针对网络热点新闻的预测问题展开研究,结合新闻文本的特点,论文主要工作如下:1)网络新闻数据的抓取与预处理:使用python设计并实现了网络新闻数据抓取系统,使用爬虫从搜狐新闻网站上的财经新闻专栏抓取以下两类新闻:热点新闻和非热点新闻,并通过时间的积累长期抓取,以获得大量的财经新闻数据,之后将新闻进行整合。为了避免不必要的误差,在形成中文语料库之前,其中中文文本的分词、去停用词处理必不可少,经过一系列的处理最终得到标注着热点和非热点的新闻语料库。2)提出网络热点新闻的深度学习模型:使用双层双向长短期记忆神经网络LSTM的变体GRU和注意力机制Attention来搭建网络新闻流行度预测的深度学习网络模型,在中文维基百科和搜狗实验室网络新闻语料库上使用Word2Vec训练词向量,使用词嵌入层(Word Embedding)将新闻文本用词向量表示,使用预训练的词向量进行初始化,并在模型的训练过程中不断调整,从使用词向量表示的新闻文本中提取抽象化的特征;最后使用全连接层(Dense)进行网络热点新闻的预测。实验结果表明,仅仅通过简单的调参,基于BIGRU-ATTENTION的模型预测结果优于其他基础深度学习模型以及传统机器学习模型,并且使用GRU代替LSTM,提高了效率,节约程序运行时间,为深度学习进行文本分类奠定了良好的基础。
其他文献
为了提高教学效率,文章首先对基于多媒体技术的分层教学基本理论进行了概述,然后分析了大学英语听力教学实施分层次教学模式的紧迫性,最后提出了基于多媒体技术的大学英语听
通过对CSS2017数据的研究和分析,得出主要结论为:农村居民、城镇中心区居民相对于城乡结合部居民具有更高的警察信任。公众公共安全感越高,其对警察信任程度越高,同时这种影
《麦田里的守望者》利用意识流的写作方法,描写了一个十几岁少年的内心生活;将愤怒与焦虑详细体现于主人公的经历之中,受到读者的热烈欢迎与好评;针对《麦田里的守望者》进行
对东北林业大学帽儿山实验林场的17年生樟子松种源试验林进行了调查分析,结果表明:各种源间差异显著,种源选择十分有效;地理变异呈现纬度单向负向渐变的趋势,经度则呈现随机
近年来鸡西市对俄经贸合作情况为对俄贸易增长较快,口岸基础设施完备,木材进口和加工仍是主要贸易领域。针对贸易结构简单,出口产品种类单一,受外部环境的变化影响较大等问题
针对含有遮挡区域、深孔及凹槽等特征的多面体或回转体物体,设计了一套基于立体定向靶标的探针式多视场三维视觉测量系统。首先,基于近景摄影测量技术建立立体定向靶标的6个
人脸表情是与生俱来反映人情绪变化的生物特征。基于人脸活动单元编码系统分类获得的七种基本表情在不同个体之间具备相同的情绪含义,这一分类方法使表情的分类具备了科学标准与量化分析的可能性。随着计算机视觉技术的发展,表情的分类可以通过机器识别和神经网络技术实现自动化操作,让计算机模仿人眼实现对人脸表情的正确辨别。在表情识别研究上逐渐形成了从人脸检测、特征处理到表情分类三个基本流程。其中,人脸检测旨在解决人
随着信息技术的发展,我国宽带速度也逐步提升,相应的技术和设备也逐渐完善。这些都为网络在线教学提供了有力地支撑。网络在线教学系统的应用扩展了教学活动的空间和时间,丰
北欧家具以极简为设计灵魂,注重结构的合理和流畅,其对原木材质和纹理的原始化应用,代表了一种回归自然的生活态度。明式家具秀丽挺拔的造型风格与对木材纹理的天然把握,完美诠释
SWAT(Soil and Water Assessment Tool)模型是对大尺度复杂流域进行长时期水文模拟的重要工具,在水文循环、土壤侵蚀、污染物负荷、气候变化与土地利用变化的影响等方面得到