基于文本特征的新闻网页信息提取方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:wintelchia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻网页以简明扼要的文字,迅速及时地报道国内外新近发生的、有价值的事件信息,是广大互联网用户的信息来源之一。如何有效提取新闻网页信息受到越来越多的关注。近年来,随着用户对新闻数据质量要求的提高,以及网页新闻不断升级的多媒体报道方式,使得新闻网页信息提取中存在三个需要解决的难题:1)适用多来源新闻网页。单一来源新闻信息已无法满足用户的需求,亟需多来源新闻网页均适用的信息提取方法;2)提取新闻网页多属性信息。网页新闻是由不同属性使用价值的文本内容组成,如:标题、时间、来源、正文和相关新闻。将新闻网页中的内容信息分属性提取,可以最大限度挖掘数据的潜在价值;3)提取碎片式文本信息。新闻网页中加入大量的图片和视频内容,将原本联系紧密的新闻内容分割成碎片式文本信息,导致新闻信息提取的效率和正确率均有不足。针对上述问题,结合网页新闻的文本特点,本文分别提出了多维度文本特征新闻网页信息提取方法(NEMTF)和增强文本语义的新闻网页信息提取方法(ETSF)。深层次分析新闻文本的内在特征联系,并将文本特征作为提取新闻信息的重要因素,完成新闻文本和新闻属性的匹配。本文研究对新闻网页信息提取做出了积极的探索,具有较强的实用价值和现实意义,为后续的相关工作(如:新闻热点发掘、舆论分析和新闻溯源分析等)打下基础。主要工作内容如下:NEMTF方法针对多来源新闻网页难以适用的问题,从多来源新闻网页的纯文本内容入手,研究和挖掘其中隐含的文本特征,使其能在不同来源新闻网页中稳定的表达出新闻信息之间的联系,以此代替现有方法常用的HTML标签。同时,NEMTF方法针对难以提取多种属性新闻信息问题,从不同角度将文本特征进一步细分为写作特征、位置特征和语义特征。通过卷积神经网络的不同通道学习这些独立的文本特征向量,使其互为补充,输出一个更具识别度的多维度文本特征,以此来提取网页中多种属性的新闻信息。实验结果表明,NEMTF能够在多个来源的新闻网页中有效的获取多种属性的新闻信息。ETSF方法针对新闻网页中碎片式文本信息的提取问题,使用不同级别的文本语义数据,通过卷积神经网络(CNN)和双向长短期记忆(Bi-LSTM)网络增强语义特征,以此来提高新闻网页中碎片式文本信息的提取正确率和有效性。实验结果表明,ETSF方法能够有效的提取出新闻网页中碎片式文本信息,进一步提高了从多来源新闻网页中提取多种属性新闻信息的性能。
其他文献
国无德不兴,人无德不立。加强新时代大学生道德教育是一项任重而道远的任务。先秦儒家优秀德育思想是中华传统的优秀文化,同时也是我国德育思想的理论框架。先秦儒家优秀的德育思想为新时代高校开展大学生道德教育提供了丰富的德育资源。新时代下,研究先秦儒家优秀德育思想是对中华优秀传统文化的重新认识,将其融入于大学生道德教育中,是对中华传统美德价值的合理利用,是落实优秀传统文化创造性转化、创新性发展的客观要求,不
学位
最新发布的《大学英语教学指南(2020版)》对大学英语课程建设提出指导性意见,英语课程定位和性质的变化必然导致教材的选择和使用也相继发生变化。目前市场上可供选择的大学英语教材百花齐放,对教材进行适用性研究不仅能够根据教学需求和学习需求,帮助使用者合理地选择教材,同时还能进一步助力广大英语教师更加积极全面地认识教材,实现教材的高效使用。《新一代大学英语》是一套根据教育部关于大学英语教学改革文件精神编
学位
随着奥运会、冬奥会陆续在中国成功举办,人们对于体育运动的关注度逐渐提高,对如何提高运动员的体育成绩也更加重视。体育运动器材是影响竞技运动员体育成绩的重要因素之一,尤其是在羽毛球运动中。以往,运动员在训练过程中不能很好的记录击球位置和击球力度,导致教练无法根据运动员的实际击球情况制定个性化训练方案。自驱动传感器的引入可以用来监测运动员的运动情况,收集运动员训练过程中存在的不足之处,帮助教练针对不同运
学位
近年来,保险行业面临着日益增长的同行业间的竞争压力,为了在激烈的市场竞争中保持稳定的发展趋势,获得更高的利润,顺利达到制定的战略目标,不可缺少的因素便是销售人才。薪酬管理是人力资源管理中的重要内容,在于深入挖掘销售人才的巨大发展潜力,帮助公司达成预期经营目标等方面发挥着重大作用。因此,保险业在未来发展中应该充分意识到,要真正想帮助企业实现其所预期的发展战略目标,吸引并且存留一支优秀的经营和销售管理
学位
报纸
黑客针对工业控制系统的网络攻击威胁到国家安全,工业控制系统是国家基础设施的核心,一旦遭到攻击会造成经济损失和影响工作效率,及时且准确的检测到网络异常流量显得尤为重要。基于异常的工业控制系统入侵检测方法近年来受到学者们的青睐,特别是使用机器学习建立入侵检测分类模型的方法大受欢迎。目前,基于异常的工业入侵检测方法在取得成功的同时还存在两个问题亟需解决:1)样本不平衡导致模型输出的预测结果倾向于多数类,
学位
学位
本文以中长基线的条件下GNSS基线解算为研究课题,主要围绕随机模型、模糊度解算、模糊度固定、电离层和对流层误差等影响基线解算结果的因素进行分析讨论以及系统研究。通过理论的研究与推导,结合RTKlib开源软件平台,利用C编程语言实现基线解算功能,并结合中长基线的实例对算法程序进行实验结果分析。总结本文主要研究内容有如下:(1)系统阐述了相对定位的非差、单差、双差等数学模型。推导数据解算需要应用的扩展
学位
目的:通过临床随机对照研究,观察三痹汤加减联合玻璃酸钠对早中期膝骨关节炎患者疼痛及临床症状改善情况,以期优化玻璃酸钠治疗本病临床治疗方案,并提供一定的临床研究参考资料。方法:本研究选取2021年1月至2022年1月就诊于福州市中医院的早中期膝骨关节炎的患者,通过严格的纳入和排除标准筛查收集66例患者,随机分为试验组33例和对照组33例。试验组运用三痹汤加减联合玻璃酸钠治疗,对照组运用玻璃酸钠治疗,
学位
近年来,尽管图形处理器(GPU)在通用计算中取得了很大进展,但在GPU中编程仍然存在不少难点,例如需要用户显式的管理GPU内存以及手动进行CPU-GPU之间的数据传输。随着应用程序的计算结构逐渐变得复杂,计算数据也在不断增长,专注于利用单个GPU的计算能力已经无法满足用户的需求,越来越多的研究人员投向多GPU系统的使用,但由于GPU内部没有成熟的内存管理机制,充分了解应用程序的特性和通过编程模型来
学位