新闻文档的自动文本摘要技术研究

被引量 : 3次 | 上传用户:zy15400444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本摘要是利用计算机自动编写和生成摘要。自动文本摘要技术是解决目前信息过载问题的一种辅助手段,能够帮助人类理解概括自然语言文本,并更加快速、准确、全面地获取重要信息,在军事和民用方面都具有极其重要的实用意义。本文对新闻文档的自动文本摘要技术进行了大量地跟踪和深入地研究,主要取得了如下三个研究成果:首先,针对传统统计方法在提取文摘句上的局限性,提出了一种基于模糊决策理论的单文档自动文摘方法。它将判定语句是否重要看作一种决策过程,利用决策合成公式结合各文本信息特征,并根据文本的类型对不同文本信息特征进行加权。将语句按权值排序,抽取出最能反映文章主旨的语句作为文摘句。实验结果表明,新方法不局限于文本信息特征的数量和形式,并适用于不同类型的文本,较传统统计方法提取的文摘句更能准确反映文章主旨。其次,针对多个主题单篇文档的文摘实现,提出了一种基于聚类算法的单文档自动文摘方法。它利用聚类算法实现多个主题的划分,并从每个主题中抽出最具主题代表的语句作为文摘句。新方法针对K-means算法需要事先给定聚类类别数和初始参照点的不足,设计了一种基于自相似度的最小-最大聚类原则(MMS,Max-Min Self-similarity),来自动获取聚类数和参照点;并将MMS与多质心多循环样本策略_中心分割(MCMRS_PAM,Multi-Centroid,Multi-Run Sampling Scheme_Partitioning around Medoids)聚类算法相结合,克服了K-means算法以质心为参照点带来的主题句提取不准确的问题。实验结果表明,与其他聚类算法相比,新方法能够有效地解决主题遗漏问题,更好地反映文章主旨,提取的文摘既覆盖全面又突出重点。最后,针对网络上存在大量同主题的多篇文档和新文档带来新增主题的实际情况,提出了一种基于语义空间聚类和主题匹配的多文档自动文摘方法。它利用语义空间模型获得词汇间的语义相似度,通过聚类对主题划分;采用主题匹配方法抽取各主题的代表句作为文摘句,并快速发现新增文档的新增主题,及时更新多文档文摘的内容。实验结果表明,生成的多文档文摘不仅能够准确地突出主要信息,并能覆盖其他子主题,动态发现新增信息,使用户全面了解事件的发展过程及变化。
其他文献
<正>2018年8月3日,我国沈阳市首次发布了非洲猪瘟疫情,使得我国结束了零非洲猪瘟疫情的历史。非洲猪瘟作为我国一类动物疫病,其病原为非洲猪瘟病毒,该病的发病较急,呈高度接
历史图片能够直观反映某一历史现象或事件,让学生直接获取历史信息,易于学生接受。而在解读历史图片的过程中让学生加深对所学知识的全面理解,而且可以培养学生的观察力、记
何占豪先生是中国杰出的音乐家,创作了许多优秀的作品,享誉中外。他始终把"外来形式民族化,民族音乐现代化"作为座右铭进行创作。他创作的作品在各个领域都有涉及,其中在古筝
全面预算管理自从上个世纪20年代在美国的通用电气、杜邦、通用汽车公司产生之后,很快就成了大型工商企业的标准作业程序。从最初的计划、协调,发展到现在的兼具控制、激励、评
准分子激光直写在曲面加工情形下的加工效果将呈现出加工不均匀、加工线宽不一致等现象。为了实现准分子激光曲面微加工过程中对加工位置的监测补偿。在装置运行前选取基准距
阅读与写作是语文教学的两大板块,二者相辅相成,互相促进。课外阅读激发学生的写作兴趣,为写作积累素材和思路;作文教学为课外阅读增添了动力。二者结合促进了学生的全面发展
长期以来,不良资产都是困扰我国商业银行的一个难题,巨额的不良资产积累了巨大的金融风险,影响了我国金融业的持续健康发展。经过近几年的努力,我国处置不良资产已经取得了一定的
质量问题的研究是伴随着科学管理理论的发展而产生的,从上世纪二十年代质量控制理论的产生到五十年代质量管理理论的形成,有关质量问题的研究一直是企业管理研究的重要内容。
提高政治素养是当前高校党建的重点工作之一,随着国际国内经济形势的发展和变化,高校党建在提升大学生政治素养方面面临着危机和挑战。缓解高校党建与大学生政治素养提升同步
银行业务的真正核心部分是风险管理,贷款的审批是银行风险管理的核心流程。分析评判企业财务状况的目的就是判断企业的风险状况以及能否为银行所接受。本文从银行信贷审批人