基于LSA和段落聚类的自动文摘系统的研究

被引量 : 8次 | 上传用户:w4444w4444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅猛发展,手工撰写摘要形式已经不能满足现在飞速发展的信息时代的要求,一种更快,更全的摘要形式的出现迫在眉睫,自动文摘应运而生,自动文摘是使用计算机提取原始文本摘要,首先人工将非结构化自然语言转化为计算机能够识别的结构化机器语言,然后进行文本的分析、文摘的提取最后自动生成文本的摘要,至此,文章的主题以摘要的形式提供给用户,使用户无须通读全文,就能找到自己需要的文章,大大节省了用户获取有意义内容的时间,从而提高了工作效率。潜在语义分析(LSA)是一种新的信息检索代数模型,它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构,来表示词和文本,到达消除词之间的相关性和简化文本向量实现降维的目的,本文将LSA理论应用到自动文摘系统中,大大提高了系统的质量。聚类是将一组对象划分成若干组或类别,简单的说就是相似元素同组、相异元素不同组的划分过程,本文研究的是单文档段落聚类,既是将一系列段落划分成多个子集或簇,其目标是建立类内紧密、类间分离的多个簇。本文提出了一种基于潜在语义分析(LSA)和段落聚类结合的自动文摘系统,首先将语义相似的几个段落聚类,然后从每个段落聚类中找出最能够表达主题的句子摘出作为文本的初始文摘,最后对生成的初始文摘句进行润色加工,生成最后的文摘。本论文的特色之处:利用LSA计算句子之间的相似度,将层次聚类和k-means聚类算法相结合进行段落聚类,这样使句子相似度的计算和段落聚类的划分更准确,最后对候选文摘句进行优化处理,加工润色,经过试验对比验证,证明本文设计的系统较传统的基于统计方法的自动文摘系统生成的文摘质量更精确、更全面、更简洁。
其他文献
“民以食为天,食以安为先”。食品安全直接关系到人民的身体健康和生命安全,关系到社会稳定和国民经济的发展。与肉制品有关的食品安全事件频繁发生,近期双汇“瘦肉精”事件,
<正>luyy□□□□abc@126.com:"三个臭皮匠,顶一个诸葛亮。"大家都这么说。姐姐,三个臭皮匠真的能顶一个诸葛亮吗?这句话说的是集体智慧用处很大。不过,如果那些臭皮匠足智多
期刊
应收账款是企业的一把双刃剑,适度的应收账款对于企业来说是件好事,过度的应收账款会影响企业的资金周转,加大坏账风险。企业的应收账款问题使经营者困惑,它占比重大、账龄老
<正>北京大学医学部、中国免疫学会、北京医学奖励基金会主办,医学部风湿免疫学学系、中国免疫学会临床免疫学分会、医学参考报风湿免疫频道协办的第七届"类风湿关节炎(rheum
金刚石砂轮具有优异的磨削性能,广泛应用于硬脆材料的精密和超精密磨削加工,其推广应用已成为工业发达国家技术进步的重要标志。但由于金刚石砂轮具有极高的硬度,修整困难,限
2008年后,国内多个地区开始新建大型现代化的体育场馆,许多场馆借鉴国外先进的体育场馆技术以及设计理念。但是,却忽视了国外体育场馆的运营理念及精髓,没有与我国体育与演艺
<正>一、财务管理教学管理现状大众教育与精英教育激烈对决后,学院派与实践派似乎已达成共识。在我国特有的环境下走科学强国之路牵绊太多,而培养应用型人才,通过技术强国才
<正>档案得到利用,才能充分体现其价值。机关档案是对各个历史阶段中机关工作实践和一切活动的真实记录,机关档案工作是提高机关工作效率和工作质量的必要条件,是维护机关历
<正>高中物理教学是物理教学的一个重要组成部分,它既是物理概念和规律教学的基础,又是物理教学的重要内容、方法和手段,对培养学生动脑动手及
锚泊是船舶运营的一个环节,锚泊安全与否与船舶财产和船员生命息息相关。随着船舶日趋大型化和专业化,船舶吨位增大、船舶数量尤其是老龄船数量增加,锚地拥挤加之船体强度降