文本分类中基于摘要结构的特征选取方法

来源 :第二届全国Web信息系统及其应用会议(WISA2005') | 被引量 : 0次 | 上传用户:lost123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选取是文本分类过程中的一个重要步骤.为了能够更加有效地进行特征选取,本文提出了一种基于摘要结构的特征选取方法.它利用了中文写作具有格式化、中文论文及文章的重点段落分布具有一定规律的特点,得到一个由这些特殊段落组成的粗略的摘要,因此,摘要中涉及到的词条将更具有代表性和高区别性.同时根据这一特点,提出了区别度的新概念,修改了TF-IDF公式.结果表明,该方法确实改进了特征选取的结果.
其他文献
地震的概率安全评定包括两大研究内容:地震危险性分析和地震易损性分析。地震易损性是指在不同强度地震作用下工程结构发生各种破坏状态的条件概率,它可以从概率的意义上定量
台风对建筑结构的作用效果主要由风场特性来决定。本文基于台风"Damrey"的实测数据,对二维台风的风场特性进行分析。根据台风风场时程,统计台风过程中的10mins平均风速和风向
本文对中国新一代《数字化立体视觉检查图》进行了介绍。该图经高科技图像处理技术升级后,保真性、精确性、清晰度、色彩度大大提高,图像质量与时俱进上了一个新台阶。同时采用
虚拟人体行走运动设计利用虚拟现实技术对虚拟立体空间场景、人物及造型进行设计开发,是对虚拟人的建模、运动行为的算法分析和设计。虚拟人是由计算机生成三维实体模型,像真人
虚拟现实全景技术是虚拟现实领域关键技术,它利用逼真场景画面展示虚拟现实三维立体空间效果,使浏览者在虚拟现实空间漫游和畅想。虚拟现实柱形全景技术利用实景图像拼接和优化
生态印染近年来倍受重视,已有不少文章论述.本文着重对常用的活性染为染色、分散染料染色、常用印花以及新纤维及多组分纤维纺织品的生态工艺作了较深入的分析.从工艺设计出
在本文中,我们提出了用维数比较小的会话门类矩阵代替了传统的会话URL矩阵,来生成相似度矩阵,同时消除了偶然用户和低兴趣度门类等噪音的影响.聚类算法采用最大树聚类算法,使
为了解决P2P对等网络中数据网格的数据集成问题,设计了一个数据集成管理模型,用于解决XML格式的数据查询任务分配和数据集成优化问题.提出一个平均通信时间概念,给出了确定平
结构化Peer-to-peer系统通过均衡的数据分布和查询来实现低延时和良好的负载平衡.然而,在实际应用中,数据访问的不平衡性可能引发节点过载,导致系统整体性能下降.例如,节点无
以MSWord2000为平台,通过MSWord2000中自带的VisualBasic编辑器开发计算机辅助教学系统.着重实现三个方面的功能:学生管理模块、公式编辑器模块和图形编辑器模块.通过此系统