基于RSS源文本的自动文摘系统研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wangyiecuifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源总量指数级的增长,如何在海量的数据中检索信息并获取主旨,是一个值得研究的问题。搜索引擎和RSS推送技术解决了信息的“源”问题,却没有很好的解决信息的“量”问题。自动文摘技术正是对信息进行压缩和精炼的有效应用之一。自动文摘利用计算机技术,自动从原始文档中抽取或总结出能够反映文本中心内容的简短连贯短文,以帮助用户快速、准确和全面的获取信息主旨。本文认为不同主题类型的新闻文摘具有不同形式的文本特征组合模型,因此应将文本自动分类结果作为自动文摘的前提。通过网页抓取、网页清洗和数据存储构建分类语料库,并在此基础之上利用不同特征选择算法和分类算法实现了自动归类。提出文摘句的可能性(Probability)和可行性(Possibility)两种度量方式,基于文摘语料库的构建,采用基于回归分析的有监督机器学习算法(线性回归和Logistic回归)进行训练学习,以确定文摘句特征组合模型的最优参数。针对中文文本,提出改进型ROUGE-CN系列评价算法,用于对文摘句可能性的度量和对机器文摘的测评。基于机器学习的自动文摘方法产生的文摘与基准文摘和Word文摘的对比实验结果表明,以自动分类为前提,利用基于回归分析的有监督机器学习算法,能够有效的提高机器文摘质量。以在线RSS数据源与基于回归机器学习的自动文摘方法的结合作为创新点,最终设计和实现了基于RSS源文本的自动文摘系统。系统以在线RSS源文本为数据来源,利用正则表达式匹配的方式抽取原文元数据内容,提供不同特征选择算法、自动分类算法、机器学习算法和压缩率选项,结合自动分类和自动文摘技术得出分类标签并生成机器文摘,实现了新闻文摘与原文的在线双重呈现。
其他文献
地质录井在冶藏勘探过程中发挥着不可替代的作用,通过地质录井可以对钻井地点的确切位置进行确定。随着人们对自然资源需求量的不断增加,对石油的勘探成为一项重要的工作。地
随着中国在国际上的影响力越来越大,各国学习汉语的人数逐年增长,在世界范围内出现了一股汉语学习的热潮。本文概述了五大洲汉语教学和海外汉语水平考试的基本情况,并从学习
供应链金融模式成为解决中小企业融资难的有效方式,其改变了过去银行等金融机构对单一企业主体的授信模式,充分利用了产业供应链结构特点及对商品交易细节的把握,围绕核心企
在经营和编辑上试图独立于政府控制和商业影响的西方公共电视系统在评估节目时面临着使命与效率的冲突。收视率依然是公共电视系统在判定理想节目时的关键指标 ,但是并不是唯
目前,我国信息技术正在迅速发展,信息化教学手段渐渐运用到了职业教育的领域。在高职思政课中适当地运用信息化教学,结合高职学生的思想实际,激发学生学习的欲望和学习的主动
随着互联网金融的兴起以及外资银行的进入,中国银行业面临着前所未有的压力。因此研究我国上市商业银行的竞争力有助于银行意识到自身的优劣势,增强应对风险的能力。基于此,
投资者保护,尤其是中小投资者的利益保护是管理企业的重要问题,也是各国证券市场监管实践的宗旨与目标。我国中小投资者的股份是在股份公司为上市而发行股票时按发行价取得的
<正>国务院副总理汪洋同志指出:"供销合作社要以提高为农服务成效为主线,创新服务方式、拓展服务领域,强化与农民组织上、经济上、服务上的联结,努力成为服务农民生产生活的
炼油厂催化重整装置冷换设备管束的腐蚀可分为H2 S -HCl -H2 O环境下的腐蚀 ,由Cl-引起的不锈钢管束的点蚀 ,芳烃抽提系统由于三乙二醇醚氧化、分解成脂肪酸引起的腐蚀以及停
当下中国转型中,经济领域步入“新常态”,社会发展迎来治理时代,预示着经济改革向社会改革转变,社会建设正是社会改革的核心议题,其理念逐渐从社会管理转向社会治理,形式涉及