Spam filtering based on PLS Feature Extraction

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:tang790330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Along with the coming of network times,the research of spam filtering technology has been imperative under the situation. However,some specialties of mail dataset such as the data sparseness,high dimensionalities and multi-collinearity in mail content make great difference between spam filtering work and text classification work. In this paper,a new Partial Least Squares (PLS) feature extraction method on spare filtering is proposed,which could extract new much less latent semantic components than full features by linear combination,compress original data and be better solution for multi-collinearity. The experiments on CEAS 2006 benchmark datasets (Enron-Spam datasets) show that promising results are reported after evaluated by TREC spare track and the new method performs better than feature selection by x2 statistics.
其他文献
Cognitive radio and cooperative communication can greatly improve the spectrum efficiency in wireless communications.We study a cognitive radio network where tw
目的 探讨择期宫颈环扎术后安胎治疗与分娩结局的相关性.方法 选择46例因宫颈机能不全择期宫颈环扎术治疗的患者为研究对象,其中25例(对照组)宫颈环扎术后给予卧床休息,并予
一九五九年五月一日,云南省泸水县造纸厂新调来一个傈僳族的姑娘,这就是傈僳族第一个造纸女工花伏妞。她来到造纸厂第二天,厂长就对她说:“花伏妞同志,你是傈僳族的第一代、
目的 探讨肺结核可疑症状者结核病医疗服务性影响因素.方法 自2011年1月-2013年2月采用等比例方法进行抽样(60例为可疑症状患者,总共调查360名),医护人员对这种可疑症状患者
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题
会议
由于语言模型的复杂性,现阶段无法构造出该模型的明确形式,而非线性时间序列分析方法可以通过隐含系统长期演化的任一单变量时间序列来研究系统的非线性行为,获得系统的运动特征
会议
目的 研讨分析开展健康教育对于农村妇女卫生保健事业的促进作用和对其健康水平的提高.方法 选取2500名农村妇女.将其分为调查组妇女和对照组妇女,其中调查组1250例调查对象,
目的 为了进一步提高大量失血患者的抢救机会,研究和探讨成分输血的价值和意义.方法 将2012年1月-2013年1月的30例在我院急诊外科就诊的大量失血患者按照随机、双盲对照的原
目的 对比分析数字X线成像(DR)与16排螺旋CT用于检测小儿呼吸道X线异物的临床检测价值.方法 选取我院自2011年1月1日-2013年6月30日期间收治的呼吸道有异物患儿50例,作为临床
一个令人难以兰信的间接证明解决了一个老问题,并且把似乎毫无联系的两个数学领域联系起来了已经向数学家们挑战了一百多年的一个著名数论难题现在已被解决。这个问题涉及数