基于优化层次聚类的文档逻辑结构抽取

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:diaro
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半结构化文档的逻辑结构自动发现可以改善文档的浏览方式,提高文档内容构件的复用性,有效克服了半结构化文档难于利用的弱点.该文将文档处理对象扩展到结构松散的文档实例,提出了基于优化层次聚类的文档逻辑结构抽取算法--CEDLS. 算法首先对文档逻辑结构标志性信息进行识别与特征提取,并根据逻辑结构抽取的特点对传统的层次聚类分析方法进行改进,使获得的分类结果适用于CEDLS算法的逻辑层次归纳策略.最终以上海证券所的年报为测试集进行实验,通过与传统的方法进行比较,证明了这种算法在容错性能和正确率方面的优越性.
其他文献
职业学校的语文教学方法的改革一直是教学改革的重点,本文阐述了行动导向教学的特点、实施方法,以及行动导向教学法在职业学校语文教学中实施的可行性、怎样与传统的语文教学模
诗歌之中常会有一些关键词句,可以称为作品中点睛传神之笔。它有两种表现形式:一种是诗词句中最精炼传神的某个字,以一字为工;一种是全篇最精彩和关键性的诗词句子,是一篇诗词的主
俗话说:一方水土养一方人。其实,一方水土何尝不是滋养着一方的花草树木呢。第一次游历在南海之滨的高原人,不免要惊奇于椰子树之亭亭玉立不旁逸斜出,惊讶于香蕉树大片叶子下
An alpha-uniformized Markov chain is defined by the concept of equivalent infinitesimalgenerator for a semi-Markov decision process (SMDP) with both average- an
新时期政治教育也面临着许多新问题,要想顺应现实需要提高教育效果,教育工作者要有良好的个人形象、有充足的知识储备和灵活多变的教育方法。
南氏笔路、南氏晕点、南氏三维水墨一九六○年生于中匡浙江省永康市。一九八六年毕业于解放军艺术学院,现为中国美术家协会会员,中国画学会创会理事。现居住北京宋庄南溪工作
一直以来,学术界对明朝与亚洲诸国交往史的研究,一般侧重于明朝与东亚的朝鲜、日本及东南亚、南亚、西亚等国的研究,则很少涉及与中亚诸国交往关系的研究;同时,由于郑和下西洋的原
中国古典文学中,成就最高、最能代表中华民族文化特征的文学样式,无疑是诗歌。引导学生阅读古典诗歌,可以提升学生的审美品位,加深人文积淀,提高文化素养。因此,诗歌教学历来是语文
黄庭坚是宋诗史上一位开宗立派、影响深远的大家。黄庭坚论诗,提倡“无一字无出处”和“点铁成金”、“夺胎换骨”之法。从诗歌技巧发展史来说,黄庭坚是最为突出的代表,他影响着
在经济飞速发展的今天,设计也在飞速发展。平面广告已经成为商业活动和公益活动的最有效的信息传播工具。色彩对平面广告来说就如同人的肌肉,是平面广告生机与活力之所在,对色彩