基于最大熵的自动文摘技术研究

被引量 : 8次 | 上传用户：svkisahero

【摘要】

：

当今社会,电子信息数量急剧增长。对信息的浓缩和查询等问题的研究工作显得尤为重要。自动文摘可以降低人工文摘的成本,缩短文摘加工和处理时间,为用户快速、准确和廉价的获

【作者】

：

陈淑栋

【发表日期】

：

2013年01期

【关键词】

：

自动文摘最大熵特征提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今社会,电子信息数量急剧增长。对信息的浓缩和查询等问题的研究工作显得尤为重要。自动文摘可以降低人工文摘的成本,缩短文摘加工和处理时间,为用户快速、准确和廉价的获取信息提供方便,加快了人们获取相关资源的速度。本文提出了一种基于最大熵的自动摘要方法,该方法最初通过对训练集文本进行人工摘要和句子特征标注,训练得到基于最大熵的自动文摘系统。进入摘要阶段后,首先对待处理文本进行句子特征抽取；然后利用基于最大熵的自动文摘系统产生文摘候选句；最后对候选句进行冗余消除,得到最终文摘。在句子特征抽取方面,本方法使用了综合的句子特征,包括F-词频特征、T-标题特征、L-位置特征、S-句法结构特征、C-线索词特征、I-指示词特征等。这些特征分别从不同的程度表征了文章的中心主题句,但都不够全面和准确。许多研究者试图将以上各种特征“有机”的结合起来提高文摘质量,即以W=f (F, T, L, S, C, I)作为计算句子权值的公式,实践证明,对于函数f的确定不够理想。本文根据最大熵原理,设计了一种自动文摘方法,在文摘句的选取方面充分结合了以上几种特征。通过实验表明,该方法是有效的。实验和示例结果显示新的方法具有较好的实用效果。文章的后面部分给出了本文摘系统的总体设计和主要模块的描述。本文的主要研究内容如下：1.对国内外自动文摘的现状进行了分析,研究了自动文摘现有的技术方法,并对现有的文摘方法进行了总结和分类,重点对文摘句的各方面特征进行了总结研究。2.研究了最大熵模型的基本原理,对最大熵的历史,最大熵的应用,最大熵的数学表示、特征函数、参数估算等内容做了深入的研究。3.结合最大熵原理和自动文摘技术特点,提出了基于最大熵的自动文摘思想,设计了最大熵模型在自动文摘中的使用模式。4.利用文摘句的多方面特性,设计了最大熵的自动文摘句子特征提取规则,研究了不同特征组合的对文摘结果的不同影响。5.设计实现了基于最大熵的自动文摘实验系统,将实验结果与基于贝叶斯原理的文摘系统进行了对比研究,分析了基于最大熵的自动文摘系统的效果。

其他文献

致力精准扶贫促进乡村振兴——湟源县巴燕乡下寺村精准扶贫浅议

精准扶贫是新形势下国家扶贫开发战略的完善和升级, 对此习近平总书记提出了六个方面明确要求.本文以湟源县巴燕乡下寺村精准扶贫实践为个案, 在总结精准扶贫工作取得成效的

期刊

精准扶贫乡村振兴下寺村

微信平台视域下的对韩汉语教学策略――以辽东学院为例

随着来华学习汉语的留学生逐年增多和汉语教学事业的不断发展,越来越多的学者关注到微信在对外汉语教学中的作用。研究证明,微信平台适用于对外汉语教学,并能发挥积极作用。

期刊

对韩汉语留学生微信教学

发挥高等教育优势促生态文明水平提升

<正>党的十八大报告首次将生态文明建设列入到中国特色社会主义事业总体布局,指出建设生态文明,是关系人民福祉、关乎民族未来的长远大计。明确了经济建设、政治建设、文化建

期刊

生态文明绿色大学科研工作者十八大报告世界范围“五位一体”总布局水平提升党的十七大报告生态文明教育

微博问政的优势、问题及应对建议

随着互联网在国内的飞速发展,不仅个人开始开通私人微博,政府机构和官员也纷纷开通政务微博。微博的发展为社会主义民主政治的实现、创新社会管理拓宽了渠道,也使微博问政应

期刊

微博问政民主政治形式主义责任意识

柬埔寨华文教育存在的主要问题及其对策

柬埔寨华文教育直到20世纪90年代柬华理事总会成立之后,才又焕发生机、蓬勃发展。但由于历史的断代和教育资源的落后,柬埔寨的华文教育仍存在着诸多问题。要在柬埔寨华教社团

期刊

柬埔寨华文教育存在的问题相关对策

宁夏大唐大坝发电公司燃料管理部绩效考核指标设计

随着经济全球化的不断推进,企业面临越来越激烈的竞争。中国的发电企业,在各种内外因素的困扰下,经营形势日趋严峻,五大发电集团之间及五大发电集团与其它发电集团之间的竞争

学位

人力资源管理绩效考核薪酬指标设计

广西金茂集团发展战略研究

在现代社会的经济发展中,随着企业不断拓宽全球化发展战略,企业所面临的经营环境也发生着日新月异的变化,企业发展战略的制定和管理也已成为企业在激烈的市场竞争中能否取得

学位

广西金茂投资集团发展战略环境分析行业发展

创新型人才研究探析

我国创新型人才研究经历了三个阶段,在创新型人才界定、创新型人才价值、创新型人才成长环境等方面取得一定的理论成果。国外对创新型人才问题的研究,是随着人力资源管理研究

期刊

创新型人才人力资源发展模式趋势展望

COX-2启动子区-765G/C基因多态性与2型糖尿病肾病相关性研究

背景和目的：糖尿病是一种慢性、低度炎症性疾病。COX-2作为重要的炎症介质,通过与炎症因子相互作用,对组织产生作用,促进糖尿病和糖尿病并发症的发生和发展。COX-2基因启动子

学位

COX-2基因多态性2型糖尿病糖尿病肾病PCR-RFLP

76例牙源性上颌窦炎的临床分析

目的探讨牙源性上颌窦炎不同治疗方法的效果和意义。方法选取我院接诊的76例牙源性上颌窦炎患者作为手术对象,依据手术方式的差异加以分组,实验组39例,采用鼻内镜低温等离子

期刊

牙源性上颌窦炎临床分析

基于最大熵的自动文摘技术研究

与本文相关的学术论文