基于双向LSTM和SVM的流式文本标题结构分析系统

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:shwjdbr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对互联网上海量的文本信息,有效地进行信息检索时每个互联网用户的重要需求。而文本结构分析就是信息检索等一系列文本相关工作中的重要基础和关键步骤。针对目前对于流式文本文件的结构分析研究较少,且通常局限于一定规则或语言类型的问题,本文提出并实现了一种文本标题层次结构识别的方法,对以Word文档为主的流式文件识别文本的标题层次结构,通过对文本标题结构的识别来实现对文本结构的分析。经过实验发现,使用支持向量机(Support Vector Machine,SVM)对文本标题进行识别可以得到较为精确的结果。考虑到文本中标题段与正文段的样本数量不平衡导致分类结果可能会对对多数类样本有所偏向的问题,本文首先采用SVM算法对文本标题进行识别,将标题先提取出来,再对提取出的标题进行下一步的工作。SVM的设置采用网格搜索寻找最优参数。实验表明,采取先将标题提取出来再进行下一步分类的方法效果也优于直接对所有文本数据进行多分类的方法。为了利用文本上下文的关系深度学习强大的特以及征学习能力,本文基于双向长短期记忆网络(Bidirectional Long-short Term Memory,Bi-LSTM)对获取到的文本特征进行学习,考虑到SVM对于小样本数据以及在高维和低维数据上都具有良好的分类性能的特点,本文没有采用神经网络中常用的Softmax分类器而是使用SVM的多分类方法作为文本标题等级的分类器。另外,本文提取的文本特征中不涉及语义信息,而是尽可能多地获取文本的格式信息以及部分内容信息,使得该方法不会受到语言系统的限制。实验结果表明,本文方法能够有效识别不同语言文本的标题层次等级,可用于构造文本标题的结构。
其他文献
随着积极老龄化的深入推行,养老行业将数字化、智能化等互联网相关概念引入到老年人的衣食住行当中,促进老年人的智慧生活,其中智慧出行是老年人生活当中尤为重要的现实问题之一,然而目前市场上的数字出行产品忽略了老年人在实际使用过程中的生理器质性变化、情感真实需求、交互综合体验等因素,以老年人为中心的服务设计思维尚未完全形成。文章从积极老龄化理念出发,分析城市老年人智慧出行的现状,发现用户在使用出行APP过
学位
在“双循环”经济背景之下,传统的企业商业模式不能适应新时代的发展。企业间的竞争也日益激烈,因此商业模式的创新对企业的生存空间发展具有至关重要的意义。目前企业要适应紧张的国际局势,以及面临新冠疫情带给社会的巨大冲击,商业模式的创新显得迫在眉睫。传统的调查显示发现,我国三大产业之间存在融合的态势。近些年,随着网络经济的蓬勃发展,产业内部的整合现象越发的突出,三大产业间的壁垒愈发模糊。论文探讨了由于企业
学位
近年来由于新冠疫情,传统的纸质投票存在潜在的健康风险。相对于传统的纸质投票,电子投票不受空间的限制,便捷性显著提高,研究安全、公平的电子投票变得更加重要。在互联网环境中,现有的电子投票系统存在一定的安全漏洞,导致其可能遭受到恶意的攻击。现有的自计票电子投票方案可以不依赖中央机构,实现了更强的隐私保护和无争议性。但这种方案计算最终的结果时,需要所有投票人的密文相乘,最后一个投票人可以提前得到最终的计
学位
调制信号分类指识别和分类所有接收信号的调制模式,以保证能够准确地解调信号,从而判断发送信号的类型,该技术已经广泛应用于军用和民用领域。近年来,深度学习以其出色的数据表达能力被应用到通信领域,实现了调制信号自动识别和分类。现有基于深度学习的调制信号分类大多是基于中心式和去中心式,但这些方法都不适用于子网共存且数据类型不匹配的异构无线网络(Heterogeneous Wireless Network,
学位
命名实体识别作为自然语言处理领域的一项核心基础任务,是分析和管理海量文本信息的关键技术手段,在大数据时代具有重要的应用和经济意义。尤其是生物医学领域中,随着互联网的高速发展,大量相关的医疗文本数据以非结构化或者半结构化的形式存储于网络之上,并且这些数字化的信息中蕴含着巨大的社会价值。因此如何充分地从中挖掘出潜在的有价值信息,有效缓解信息严重过剩所带来的挑战,已经成为了信息科学领域的一个热门研究方向
学位
自动音频标注是一项多模态文本生成任务,旨在要求系统根据输入的音频片段,生成一段文字来描述音频。相比于传统的音频分类等任务,自动音频标注任务更为复杂,但也有着更广阔的应用前景,例如为残障人士提供便利服务等。已有的工作主要注重于探索新的方法以及如何更好地利用已有的数据集来改善模型的表现。目前,学界很少有工作利用预加载模型或是预训练手段来改善音频标注系统的表现。因此,本文针对自动音频标注这项多模态任务,
学位
随着社会时代的快速发展,我国社会主要矛盾己经转化为人民日益增长的美好生活需要和不平衡不充分发展之间的矛盾。与之相应,我国的民族工作也呈现出新的发展趋势,民族团结进步事业面临着新的挑战和困难,如何推动民族创建工作在新的历史时期保持鲜活生命力,是新的历史时期下亟需思考的深刻命题。而全面深入持久开展民族团结进步创建工作,是推进民族团结进步事业发展的关键一招,是提高各族人民幸福感的重要保障,也是实现中华民
学位
在机械化生产成为趋势的今天,机械系统的平稳运作是保证机械生产的效率和质量的根本,所以在其生产过程中故障的监测十分重要。我们可以通过机械故障声检测来实现这一目标。针对机械音频训练数据集中只有正常音频,没有异常音频的特点,我们利用字典学习模型抓住音频最本质的特征来获得它们在无监督单分类器上的良好表现,本文主要工作总结如下:第一,针对机械运行中固有的物理特性,我们对其提取机械特性参数,并将其作为特征进行
学位
热红外成像技术是判定物体热辐射能量的一种被动红外技术,因其能突破人类视觉局限,被广泛运用于城市安防监控等领域。然而,红外热辐射具有严重的反射现象,通常在含有光滑且发射率低的场景中,具有热辐射的行人或其他物体易产生红外热辐射伪影,干扰了红外图像的后续检测和识别处理。针对解决热辐射反射伪影造成的干扰和充分利用伪影信息,以及热成像目标检测算法需考虑实时性和移动嵌入平台的计算能力,本文研究目的是对红外图像
学位
化疗已被广泛应用于癌症的临床治疗,但其对身体正常组织伤害较大并且肿瘤会产生耐药性。光疗作为一种先进的癌症治疗方法,因其低细胞毒性、高时空选择性和无创性等优点受到了广泛关注,其中包括光热治疗(PTT)和光动力治疗(PDT)。此外,化学动力学治疗(CDT)因其不需要外部能量、细胞毒性小和响应肿瘤微环境等优点,常常与PTT、PDT等治疗方法协同作用,PTT产生的热量有助于增加瘤内血流量和氧合作用,从而促
学位