字符特征和主题特征相结合的文本分类模型的研究及应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhoushuoqd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网爆炸式的发展,各领域信息化产生了大量文本数据,但是如何将这些数据充分利用起来,是目前待解决的问题。大量的信息缺乏归类整理,为信息的使用者带来了困难,因此需要良好的文本分类技术对这些信息进行理解和整理。这也是文本分类目前依旧是自然语言处理领域的热门研究课题之一的原因。当前已有的文本分类模型普遍存在分类准确度不高的问题,导致信息的使用者无法准确定位到所需要的文本。因此如何提升文本分类准确率是文本分类研究的重点。此外,在提高准确率的同时,也需要兼顾模型的训练耗时,这样模型才有应用的价值。为了解决这些问题,本文调研了该领域国内外相关研究的最新进展,深入分析各文本分类方法的优点和缺陷。基于现有的研究,提出了Topic Character CNN(TC-CNN)和Topic Character CNN GRU(TC-CNN-GRU)文本分类模型。TC-CNN和TC-CNNGRU通过结合文本的字符特征和主题特征,使得文本特征信息更加丰富,提升了文本分类准确率。TC-CNN-GRU在TC-CNN的基础上,使用了Bi-GRU加强了模型捕获上下文联系的能力。此外TC-CNN-GRU使用了注意力机制,优化了得到的文本特征,进一步提升了文本分类的准确率。实验结果表明,相比已有的文本分类模型,TC-CNN和TC-CNN-GRU在AG和Sogou数据集上分类准确率有明显提升。此外本文比较了不同主题模型和不同特征结合方式对于TC-CNN和TC-CNN-GRU分类准确率的影响,结果表明TC-CNN和TC-CNN-GRU使用LSA并将字符特征和主题特征加权拼接的分类准确率最高。虽然TC-CNN-GRU分类准确率较高,但是TC-CNN-GRU的训练耗时要远超过TC-CNN。从实际应用的角度考虑,本文将TC-CNN应用在新闻汇集平台中,对平台的新闻进行分类,使得平台采集到的新闻具有统一分类,方便使用者快速定位到感兴趣的领域。
其他文献
场景感知(context awareness)计算是智能交互的关键技术,也是物联网研究领域的重要课题。现实生活中,应用在不同场景下所提供的服务有所不同。而场景感知为上层应用提供重要
为了进一步扩展RFID系统的通信距离,本文研究了基于RFID的双基地通信系统,该系统是受雷达通信启发,演变而来的一种新型RFID通信系统。在介绍双基地通信系统架构和原理的基础上,通过理论分析,阐述了该系统在信号功率衰减、通信距离、载波自干扰和成本等方面的优势。之后,使用信号发生器、板级标签、半有源标签和软件无线电(Software-defined radio,SDR)搭建了双基地通信系统模型,并对
随着互联网的发展,越来越多的色情图片、视频等资源充斥于网络,对互联网用户,特别是青少年带来不良影响。高效的色情视频检测手段成为迫切需要。本文首次将非监督学习的思想引入到了色情视频检测方法中,不同于利用传统的人工设计特征来判别视频,本文采用神经网络自学习的方式提取特征,再利用分类器对特征进行训练、分类,达到判断视频中是否含有色情内容的目的。本文提出了一个基于多模态非监督特征的色情视频检测算法,在该算
近年来,我国互联网行业不断发展,网民总数不断增长,网络游戏、网络文学和网络视频形成网络娱乐类应用三足鼎立的局面。其中,网络视频占比最大,同时,网络视频用户的增长率远高于总体网民的增长率。过去的几年里,视频网站为了争夺用户,不惜重金打响版权之战。当一些传统媒体开始互联网转型,收紧版权分销,视频网站逐渐认识到购买版权并不能形成真正的竞争壁垒。同时,在版权购买压力下资金问题日益凸显,各视频网站纷纷将目光
考虑到双边道德风险、逆向选择在私募股权投资活动中导致了十分复杂的委托代理问题,是投资活动中不可忽视的重要因素,本文从理论角度入手,基于拓展的委托代理模型,创新地研究了存在双边道德风险、信息甄别且私募股权投资者具有谈判控制权情况下的最优合约(包含股权划分合约以及对赌协议两部分)形式,再从实证的角度试图论证理论结果。在理论方面,通过构建模型发现,当双边道德风险与逆向选择均存在时,投资者无法通过与企业签
奴拉赛铜矿床位于新疆西天山阿吾拉勒西段。矿体呈脉状、条带状,产在矿区两条主断裂中及断裂附近的地层、岩体和角砾岩中,受构造控制明显。围岩为下二叠统乌郎组玄武岩、凝灰岩,上二叠统晓山萨依组砂砾岩,花岗斑岩体及它们的断层角砾岩。矿石主要呈块状、条带状构造、脉状构造和浸染状构造等等,矿石中的金属硫化物主要为辉铜矿和斑铜矿,亦含有少量的黄铜矿、黄铁矿,脉石矿物包括方解石、重晶石及少量石膏。围岩蚀变主要表现为
随着十八大的召开,国内经济发展形势起着翻天覆地的变化,很多经济结构都出现了转型升级的情况,这在一定程度上促进了社会经济的增长。民航业在“一带一路”、“供给侧改革”
随着人们消费水平的提高,高音质Audio Codec逐渐成为人们追求的目标。信噪比(SNR)、总谐波失真加噪(THD+N)、带内平坦度是衡量Audio Codec保真度的关键参数。为追求高信噪比,多数Audio Codec芯片中的ADC采用了Sigma-Delta结构的模拟调制器进行量化噪声的整型,数字滤波电路进行后续的低通滤波。由于该应用中数字滤波常使用较多的乘法器,硬件资源消耗严重,且级联的数
随着移动互联网与计算机技术的快速发展,人类逐步踏入一个由庞大数据所支撑的信息社会。近年来,对于海量数据的存储和计算成为学术界以及工业界重点关注的问题之一,尤其是以Hadoop和Spark为代表的云计算生态组件被广泛应用于数以千计的业务场景下。但是,随着数据中心规模的不断扩大,运维及资源开销成本的日益激增,人们在追求计算性能提升的同时,开始关注于偌大集群的资源优化问题。基于上述背景,本文着重对Had
警觉度是人能保持长时间专注状态的程度,高警觉度状态下人能及时对外界刺激做出反应从而减轻外界伤害和影响达到自我保护目的。一些职业如司机、医生等需要人长时间保持高警