基于关键词与主题句的文本摘要提取技术研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:q56260916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的迅速发展,文本信息的数量和规模日益扩大。如何从如此海量的数据中快速获取到用户所需要的有效信息,同时对海量文本信息进行相应的概括,成为了目前急需解决的一大难题。文本摘要提取技术旨在从复杂纷繁的文本信息中,自动提取出文本信息的主要内容,进而解决了人工手动提取摘要难以适应如此海量数据的问题,降低了用户的信息解读工作量。目前,大数据时代的降临使文本摘要提取技术成为国内外学者进行学术研究的热点。本文的主要工作如下:(1)提出基于TF-IDF的关键词优化算法。使用传统词频统计TF-IDF算法提取出的关键词,并不能体现词语特征词的分布情况和重要程度,因此提出基于TF-IDF算法关键词优化算法。该算法在关键词提取预处理阶段,引入词语相似度概念,将一些具有高相似度的单词合并,然后运用标注段落的方法来提升分词完的数据质量。把TF-IDF算法中的文本逆频率转化成词语逆频率,提升了每个词语在语料库中的重要程度,最终实现关键词的提取。通过试验分析,此方法提取的文本关键词准确度更高,比传统的TF-IDF方法有更高的准确率和召回率。(2)提出基于TextRank的中文摘要提取改进算法为解决传统的TextRank算法默认所有句子初始重要程度相同,并不考虑句子本身就有重要程度差别的问题,提出了基于TextRank的中文摘要提取改进算法。该算法首先使用基于TF-IDF优化算法提取出关键词。并结合Doc2Vec模型与改进初始点选取的Kmeans聚类算法形成若干句子簇。考虑句子与关键词的关联程度、句子位置、句型特点等因素调整新的主题句权值;将权值用于TextRank算法中,以提升摘要的准确性。通过实验分析对比,此方法自动提取中文摘要的效果比仅考虑词频的TF-IDF方法、传统默认句子初始权值全部相同的TextRank算法和改进的DK-TextRank算法好。
其他文献
目的:探讨临床医学检验环节的质量控制有效方法,为医学临床科学检验提供重要依据,保证检验报告内容完整性和正确性。方法:选择重庆市涪陵区妇幼保健院2个临床医学检验小组进
目的:进一步优化中药材地膜覆盖露头栽培技术,筛选出适合推广大田生产的甘肃黄芩最佳栽培模式,为下一步农技推广工作提供科学依据。方法:设立幅宽35 cm白膜覆盖露头栽培(T1)
对于环氧基碳纤维增强复合材料(简称环氧基CFRP)、不饱和合聚酯基玻璃纤维增强复合材料(简称UPGF)及聚丙烯(简称PP)等轻量化材料制成的汽车塑料件,因材料特性不同,所以,对其
本研究选取北京市2005-2016年的经济与环境数据,建立北京市经济增长与主要污染物排放的计量模型,进行环境库兹涅茨曲线实证研究。结果表明,在一特定时间段内,北京环境库兹涅
基于ZigBee协议对顶板离层无线传感器网络节点进行了实验研究,对能耗进行了分析。结果表明:顶板离层无线传感器网络节点既可独立使用,也可作为无线传感器网络节点使用。独立
教科研工作是幼儿园提高保育质量、破解难题、创建个性化与特色化园所的必由之路,是促进教师专业成长、培养幼儿全面发展的必然途径.我园立足于幼儿的全面发展、教师的专业成
传统的对于涉及到在校学生的暴力行为之"校园暴力"的称谓,是着眼于学校责任的对暴力范围的不当限制,存在目的与手段本末倒置之嫌。应当转变着眼点,以对在校学生的权益的充分
红小豆,又称赤小豆。它为豆科植物赤豆的种子,其外为赤褐色或红色外衣包裹,故名赤豆、红豆。因它富含淀粉,因此人们又称之为“饭豆”。红小豆,原产于我国,全国各地都有栽培。
近年来,随着人工智能技术的不断发展,人类对船舶性能的需求-不断上升,众多相关学者将视角转向了“人工智能+船舶”。无人驾驶船舶集信息采集和识别、行为决策和自主控制于一