一种面向非平衡数据的邻居词特征选择方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户：only_xin

【摘要】

：

在非平衡数据情况下，由于传统特征选择方法，如信息增益（Information Gain，IG）和相关系数（Correlation Coefficient，CC），或者不考虑负特征对分类的作用，或者不能显式地均衡正负特征比例，

【作者】

：

孙霞郑庆华

【机构】

：

西北大学计算机科学与技术系,西安交通大学计算机科学与技术系

【出处】

：

小型微型计算机系统

【发表日期】

：

2008年12期

【关键词】

：

特征选择非平衡数据术语抽取邻居词 feature selection imbalanced data term extraction neighbor w

【基金项目】

：

国家自然科学基金项目（60473136）资助,博士点基金项目（20040698028）资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在非平衡数据情况下，由于传统特征选择方法，如信息增益（Information Gain，IG）和相关系数（Correlation Coefficient，CC），或者不考虑负特征对分类的作用，或者不能显式地均衡正负特征比例，导致特征选择的结果下降.本文提出一种新的特征选择方法（Positive-Negative feature selection，PN），用于邻居词的选择，实现了文本中术语的自动抽取.本文提出的PN特征选择方法和CC特征选择方法相比，考虑了负特征；和IG特征选择方法相比，从特征t出现在正（

其他文献

老药新用治疗咯血

<正> 喉以下呼吸道任何部位出血,经喉头、口腔而咯出称咯血。咯血多见于肺结核和支气管扩张,其常规药物治疗采用止血药和垂体后叶素。本文对近年用于治疗咯血的非止血药综述

期刊

咯血药物新用

高羊茅春化和光周期调控相关基因的克隆及差异表达研究

高羊茅是主要的多年生冷季型草坪草,具有耐旱、耐瘠、抗病力强、适应性广等优良特性,在我国很多地方的城市绿化和运动场地的建设中应用广泛,是国内主要应用的草坪草之一。高

学位

差异表达春化光周期基因克隆RNA干扰亚细胞定位高羊茅

大数据技术与应用专业核心课程建设分析

【摘要】大数据技术近几年飞快的发展起来，我国的大数据技术也在不断发展进步。在这种背景下培养适合社会需要的大数据人才越来与迫切。高职高专院校作为我国人才培养的重要场所，培养适合工作社会需要的大数据技术与应用专业人才是工作的重中之重。但是我国的大数据技术与应用专业是近些年发展起来的新兴行业，在课程建设和课程发展过程中仍存在许许多多的不足，这些不足是阻碍我国大数据技术和应用专业的重要因素。针对这些不足我

期刊

大数据技术大数据技术与应用专业核心课程建设分析教学方法

1.6Kb/s类MELP语音压缩编码器的FPGA实现

基于“CPU软核＋模块算法IP”的方法对一个1.6Kb/s类MELP语音压缩编码算法进行了实现,并将整个语音压缩编码器在FPGA上进行了整体验证,实验结果说明本文给出的语音压缩编码器的

期刊

语音压缩编码MELPFPGA实现SOCspeech coding MELP FPGA implementation SoC

温室菜田施氮损失的双氰胺控制效应规律研究

本研究针对温室蔬菜生产中由过量施用氮肥以及不合理的灌水措施导致的氮肥利用率低、氮素损失（NO3--N、N2O气体排放和NH3挥发）严重的资源浪费和环境负效应问题,重点研究硝化抑

学位

硝化抑制剂双氰胺(DCD)氮素损失温室蔬菜优化水氮管理调控效应规律

计算机在药剂科的应用

期刊

计算机应用药剂科管理

基于相似粗糙集的CBR范例提取算法

提出了利用相似粗糙集进行范例提取的算法，自动从原始数据中提取典型范例并能获得较高的分类精度．该算法能较好的处理噪声的干扰，减少预设参数的数量，并能直接处理连续数值型属性

期刊

相似粗糙集相似关系范例推理知识表达系统分类精度similarity-rough set similarity relation case-base

禽白血病病毒ELISA检测方法的建立与初步应用

本研究以在毕赤酵母系统中表达并纯化的p27重组蛋白为包被抗原,HRP标记的兔抗鸡IgY为酶标二抗,建立了一种快速有效的禽蛋白血病病毒ELISA检测方法,并对其反应条件进行优化。

期刊

禽白血病病毒P27蛋白间接ELISAAvian leucosis virusp27 proteinindirect ELISA

调查、觊觎与记录:台湾矿产资源与近代西人“台湾印象”的形成

我国台湾地区矿产资源丰富,尤以煤炭、石油、硫磺、贵重金属等资源最多。19世纪中后叶正处各西方资本主义大国向帝国主义过渡时期,对远东地区掌控权的争夺及对矿产资源的占有

期刊

近代西人台湾矿产基隆煤矿中法战争

一种欠驱动柔性机器人模型的建立及控制

采用Lagrange建模方法建立了欠驱动柔性自平衡机器人的数学模型，对柔性关节部分考虑了其弹性势能，仿真验证了模型的正确性，刚度越大，机器人上半身角度跟踪越快．采用线性二次型最优

期刊

欠驱动柔性关节自平衡机器人平衡控制under-actuated flexible joint slef-banlancing robot balanci

一种面向非平衡数据的邻居词特征选择方法

与本文相关的学术论文