一种新型的文本无监督特征选择方法

来源 :重庆大学学报：自然科学版 | 被引量 : 0次 | 上传用户：xinxing1983

【摘要】

：

结合文档频数DF（Document Frequency）和特征相似度FS（Feature Similarity）方法，提出一种新的无监督特征选择方法DFFS。该方法利用文档频数过滤掉90％的特征之后，再借助特征相似度移除

【作者】

：

何中市徐浙君

【机构】

：

重庆大学计算机学院,重庆大学语言认知与信息处理研究所

【出处】

：

重庆大学学报：自然科学版

【发表日期】

：

2007年6期

【关键词】

：

自然语言处理特征选择文档频数单词权单词熵 natural language processing feature selection documen

【基金项目】

：

国家自然科学基金资助项目（60173060）,重庆市高等教育教学改革研究项目（0635207）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

结合文档频数DF（Document Frequency）和特征相似度FS（Feature Similarity）方法，提出一种新的无监督特征选择方法DFFS。该方法利用文档频数过滤掉90％的特征之后，再借助特征相似度移除尽可能多的冗余特征。采用K-均值方法，对比DFFS方法与其他3种常用特征选择方法（DF，TC，TS）的聚类性能。实验一：当特征数量由6000减少到1047时，DF方法的聚类性能急剧下降，而DFFS方法则有提高，甚至当特征数量进一步减少到350时，DFFS方法也没有下降。实验二：在保持10％

其他文献

瘤体局部注射加放疗治疗中晚期食管癌32例疗效观察

中晚期食管癌不适于手术,放疗是主要手段,但目前单独使用放疗效果还不很理想.作者从1994～1998年采用瘤体局部注射配合放射治疗中晚期食管癌32例,疗效较好,现总结如下.

期刊

食管癌瘤体局部注射放疗

光子链图传播下Bhabha散射截面的严格计算

采用光子与电子（正电子）的最小电磁耦合模型，获得了光子链图传播子重整化的有限量。对其辐射修正作了相关的计算和讨论，从而得到了电子-正电子碰撞在链近似下的散射截面，并与最低

期刊

电子-正电子碰撞散射截面链图修正重整化electron-antielectron collision cross section chain ap

模态参数识别中频响函数估计的最小二乘优化

模态参数识别的精度将会直接影响到机械结构系统动力特性分析的质量，而频响函数的估计精度对模态参数识别精度影响很大．工程中通常借助FFT采用功率谱平均估计频响函数．由于FFT过

期刊

模态参数识别频响函数最小二乘法精度modal parameters identification least-square method frequ

提高社区老龄卫生服务质量的探讨

据预测到2025年老年人口占总人口的比例将上升到19%,这25年将是我国人口老龄化速度最快的阶段,平均每年上升0.34个百分点,到2050年将上升到26.00%.老年人(80岁以上)死亡率低

期刊

老龄化社区卫生服务质量建议

并行设计中迭代收敛的特征分析

利用未完成任务量每次完工比例这一参数，重新建立任务转移模型，深入分析设计迭代过程中任务转移矩阵特征值与任务总量收敛速度的关系、特征向量与任务总量的关系，并将新建模型与

期刊

并行设计任务转移矩阵迭代收敛concurrent design work transformation matrix iteration conver

激光共聚焦扫描显微镜与多光子激光扫描显微镜之比较

激光共聚焦显微镜是80年代随着光学、视频、计算机等技术的飞速发展而诞生的新一代显微镜.

期刊

激光共聚焦扫描显微镜多光子激光扫描显微镜单光子激发生物医学

医院档案管理工作的体会

随着我国加入WTO后科技信息的快速发展，档案在医院管理中的地位和作用越来越被人们所重视。近几年，医院档案的业务建设普遍提高，作为医院管理工作的一个重要组成部分，医院档案管

期刊

医院管理档案管理医院档案信息资源

院前急救与特警“110”通讯联网的作用

近年来，由于人们对急救重要性认识的提高，现场急救车接患者次数呈逐年递增趋势。我院是以收治创伤性疾病为主的医院，患者急诊来院更需现场急救。2000年初我院与公安特警“110”

期刊

院前急救特警“110”通讯联网医院

金属填料蒸发型空调系统性能的预测模型

针对金属填料蒸发型空调系统内部传热传质过程的复杂性，利用人工神经网络的非线性映射功能、学习功能和记忆功能，通过对数据样本的学习，建立起描述金属填料蒸发型空调系统性能与

期刊

金属填料蒸发型空调系统人工神经网络模型metallic packing model evaporative air conditioning sys

剖宫产率升高原因分析

近年来,由于对围生医学的研究和发展,以及社会诸因素的影响,剖宫产率明显上升.我院1999～2001年剖宫产率分别为36.2%、42.3%、48.3%,其原因分析如下.

期刊

剖宫产适应证剖宫产率

一种新型的文本无监督特征选择方法

与本文相关的学术论文