中文文本体裁的自动分类机制

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:hw565656
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十世纪末以来,计算语言学很多的文本分类研究者认识到按照形式分类的重要性,并出现了一个重要的理论转向,即由重视内容的分类转而重视内容与形式并重的研究。体裁属于形式的范畴,与写作风格、句法分析联系紧密,对文章的写作有着明显的制约和规范作用。把体裁分类信息附加于信息搜索引擎的方案,可以显著改善其效能。此外,体裁信息用于协助数字图书馆系统的可视化表示。因此,研究体裁自动分类,有着极高的理论价值和深远的现实意义。 然而,如何识别、描述、利用文本体裁是一项复杂而具有挑战性的工作。首先,体裁概念体系很大程度上是人类思维的抽象归纳,研究者认知受限和体裁自身动态演变等因素使得其概括和表述工作相当困难。其次,这个课题交叉于传统的汉语修辞学与计算语言学之间,需要有较深的语言学功底和计算语言学理论基础。因此,在其研究道路上还存在一些必须要克服的障碍。整体来看,体裁分类研究尚处于全面探索阶段的初期,其技术还不够成熟。而且,国内汉语体裁自动分类的研究工作也刚刚起步。 本文参照英语体裁分类机制,提出了一种基于浅层特征的中文体裁自动分类机制。其中,利用样本分类决策选出十三个中文特征项,借鉴模糊隶属度理论接合定性与定量指标,采用支撑向量机技术计算特征值。该分类机制已经在科学体、政论体、诗歌体、公文体、新闻体共五类体裁的典型文本的语料上得到实现,并获得了较好的效果。系统的局限性是特征提取程序缺乏通用性,必须随着体裁分类体系的每一项变化而做大幅度的调整。本课题尽管取得了一些进展,但必竟只是体裁自动分类研究的一个初步尝试,更多后续理论及应用研究尚待完成。
其他文献
在近百年来中国的历史演进中,尤其是在社会转型和现代民族国家构建过程中,呈现出若干“节点”,所谓节点,即历史发展过程中展现阶段性或大变动的关键时段。这些节点有以经济为
本文旨在研究我国流感病毒实验室的检测方法,并对具体的检测方法做出详尽得分析,针对每种检测方法的优缺点以及适用范围进行阐述,为我国医学卫生事业的发展提供一些可行性的思路
笔者采用2010年浙江省投入产出表的有关数据,对该省金融业产业关联度进行测算,用完全分配系数、直接消耗系数、影响力系数和感应度系数等指标,定位该省金融业,考察其发展状况
我国是一个农业发展大国,农业经济是我国国民经济发展的根本。因此“三农”工作的开展是保障我国农业经济持续、稳步发展的重要内容。近年来,随着我国社会经济的进步发展,我
从流量特性、建模复杂性、预测精度及应用场景等多角度进行分析比较,选用流量控制设备将网络带宽的管理提升为主动的、有效的、智能化的带宽管理服务,根据流量控制设备生成的
建造合同会计处理是会计实务中的一个难点问题。本文详细分析了建造合同会计处理的典型特点和理论基础,提出了各种收入确认的统一标准,并根据建造合同会计处理的基本原理对准
能源互联网一般指具有多种能源综合协同的供应框架,是通过能源转化、能源储存、需求侧响应等多种技术实现的能源供应体系,实现了能源信息的深度耦合。通过建设能源互联网,在
目的:了解老年失眠患者的用药情况,更好的完成医疗保健工作,促进老年患者合理用药。方法:利用自行编制的统计软件,并用Excel 2010做后续的数据处理,分别对老年失眠患者的比例
目的建立毛细管柱GC法同时测定小半夏汤(半夏、生姜)中的琥珀酸、苹果酸、柠檬酸、亚油酸的方法。方法使小半夏汤中的有机酸类成分甲酯化,毛细管柱GC法测定其含量。采用HP-5石
<正> "床前明月光,疑是地上霜。举头望明月,低头思故乡。"李白这首家喻户晓、传颂千古的《静夜思》,曾经惹动多少游子的思乡情怀,曾经让人在如霜的月色中兴起多少对团圆的渴