基于无监督集成学习的抽取式文本摘要方法研究

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:kekexil123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网社交媒体中用户创建内容的增多,网络中可用的电子文档数量和大小已经变得十分巨大。在这种情况下,为了分析大量生成的数据,需要自然语言处理(NLP)应用程序。自动文本摘要(ATS)在NLP领域是一项日益增长并具有挑战性的任务,其目标是在保留原始文档中存在的主要思想的同时,产生大型文档的简化版本。传统的自动文本摘要方法多数基于监督学习方法,需要大量的人工标注数据。同时高维数据和稀疏数据的表示会使得语义信息难以捕获。针对这些问题,本文探究了基于无监督集成学习的抽取式文本摘要方法,在自动文本摘要任务中设计并实现了一种基于无监督深度神经网络与Word Embedding方法集成来提高自动文本摘要质量的方法。1)首先,本文采用的是Word2Vec词嵌入模型,相比与传统的词袋模型(BOW)表示,它能将高维数据转化为低维空间的矢量表示。与此同时它是一种更具表现力的表示形式,产生的向量具有上下文的语义相关性。2)本文结合Word2Vec和TF-IDF系数改进Sentence2Vec句向量表示方法。3)其次,本文提出了自适应K值的文本摘要抽取算法,通过自动确定文本摘要中心摘要数量K来提高聚类算法准确度,进一步提高抽取式文本的准确度。4)对于缺乏大量标注数据的情况,无监督的方法更为适用,本文中采用的无监督模型是自动编码器(AE),变分自编码器(VAE)和极限学习机编码器(ELM-AE)。通过三种无监督特征学习方法的组合,探索句子相似度,提高自动文本摘要质量。在相关数据集上采用了 ROUGE评价指标对结果进行了评估和对比。此外,本文设计并实现了文本信息提取系统。并将系统中的核心功能与已有方法做了一定的对比。实验表明,该系统相比于一些已有方法和开源系统具有较好的实际应用价值。
其他文献
羊的肉髯是位于羊颈部侧面的指形肉垂,在家养山羊中较常见。肉髯与羊的生产性状相关性研究报道较少,并且肉髯对个体生产性能的影响研究结果也不一致。本实验以南江黄羊为研究
随着信息技术的快速发展,视觉传感器网络因其丰富的视觉感知能力而受到了广泛的关注。视觉传感器网络配置了相机装置,能够采集图像、视频等物理数据信息,可以用于多种环境的
本试验以平陆百合脱毒苗为材料,对其快速繁殖体系进行优化。研究了不同因子(植物激素、纳米碳、水杨酸、多效唑、蔗糖、无机盐)对鳞片分化、鳞茎增殖及膨大、生根及生理生化
陆诒是中国抗战时期著名的战地记者,与范长江、孟秋江齐名。他1931年进入新闻界。抗战期间,他先后在《新闻报》《大公报》和《新华日报》担任战地记者。陆诒的战地报道,真实
敦煌藏文文献P.T.2是一篇宗教性质的文献,写卷正面共120行,字迹清晰,表面无破损。写卷的时间在吐蕃统治敦煌时期即8世纪至9世纪中叶(786-848)。文书正面内容共分为五个部分,
矩形横截面地下结构在进行抗震设计时,普遍采用反应位移法和非线性动力时程分析法,这两种方法之所以得到广大设计师的认可是因为它们均能合理地反映出土和结构之间的相互作用
职业病不仅对职工身体造成严重损害,而且对家庭稳定与社会和谐带来严重影响。我国当前的职业卫生问题相当突出,全国尘肺和急性中毒事故与职业病现患病人数尚居高不下,工程技
酒精性肝病是仅次于传染性肝病的第二大类肝病。长期过量饮酒对健康的威胁和社会的危害,是全球范围内重要的公共卫生问题。本课题通过构建酒精性肝损伤动物模型,研究菌草灵芝
经济社会的不断进步,使得与人类生活密切相关的室内机器人行业飞速发展。作为机器人领域核心问题,SLAM(同步定位与建图)技术受到了学者们广泛关注。而在室内环境所采用的深度
桃蚜(Myzus persicae)属于半翅目蚜科,因其寄主范围广,传播病毒是重要的农业害虫。因此有效的防治桃蚜已经成为亟待解决的问题。本研究主要以桃蚜两种亚种AMyzus persicae se