Spam filtering based on PLS Feature Extraction

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户：tang790330

【摘要】

：

Along with the coming of network times，the research of spam filtering technology has been imperative under the situation. However，some specialties of mail dataset

【作者】

：

Peng-MingWang;Ming-WenWang;Guo-BingHuang;

【机构】

：

School of Computer Information Engineering, Jiangxi Normal University, NanChang, 330022

【出处】

：

第三届全国信息检索与内容安全学术会议

【发表日期】

：

2007年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Along with the coming of network times，the research of spam filtering technology has been imperative under the situation. However，some specialties of mail dataset such as the data sparseness，high dimensionalities and multi-collinearity in mail content make great difference between spam filtering work and text classification work. In this paper，a new Partial Least Squares (PLS) feature extraction method on spare filtering is proposed，which could extract new much less latent semantic components than full features by linear combination，compress original data and be better solution for multi-collinearity. The experiments on CEAS 2006 benchmark datasets (Enron-Spam datasets) show that promising results are reported after evaluated by TREC spare track and the new method performs better than feature selection by x2 statistics.

其他文献

采用模拟网络编码的认知中继网络双向通信的最优功率分配(英文)

Cognitive radio and cooperative communication can greatly improve the spectrum efficiency in wireless communications.We study a cognitive radio network where tw

期刊

最优功率分配网络编码terminalsrelaytransmitamplifycooperativesuperiorityallocation

宫颈环扎术后安胎治疗相关问题的探讨

目的探讨择期宫颈环扎术后安胎治疗与分娩结局的相关性.方法选择46例因宫颈机能不全择期宫颈环扎术治疗的患者为研究对象,其中25例(对照组)宫颈环扎术后给予卧床休息,并予

期刊

宫颈环扎卧床休息药物治疗

傈僳族的造纸女工

一九五九年五月一日,云南省泸水县造纸厂新调来一个傈僳族的姑娘,这就是傈僳族第一个造纸女工花伏妞。她来到造纸厂第二天,厂长就对她说:“花伏妞同志,你是傈僳族的第一代、

期刊

泸水县小组工作五月一日第二年配碱三极

肺结核可疑症状者结核病医疗服务性的探讨

目的探讨肺结核可疑症状者结核病医疗服务性影响因素.方法自2011年1月-2013年2月采用等比例方法进行抽样(60例为可疑症状患者,总共调查360名),医护人员对这种可疑症状患者

期刊

肺结核可疑症状者医疗服务性影响因素

基于聚类语言模型的生物文献检索技术研究

近年来研究表明使用主题语言模型增强了信息检索的性能，但是仍然不能解决信息检索存在的一些难点问题，如数据稀疏问题，同义词问题，多义词问题，对文档中不可见项和可见项的平滑问题

会议

基于文本概念序列的非线性分析方法初探

由于语言模型的复杂性，现阶段无法构造出该模型的明确形式，而非线性时间序列分析方法可以通过隐含系统长期演化的任一单变量时间序列来研究系统的非线性行为，获得系统的运动特征

会议

健康教育对农村妇女卫生保健的干预作用

目的研讨分析开展健康教育对于农村妇女卫生保健事业的促进作用和对其健康水平的提高.方法选取2500名农村妇女.将其分为调查组妇女和对照组妇女,其中调查组1250例调查对象,

期刊

健康教育卫生保健干预作用农村妇女

对大量失血患者采取成分输血的临床疗效

目的为了进一步提高大量失血患者的抢救机会,研究和探讨成分输血的价值和意义.方法将2012年1月-2013年1月的30例在我院急诊外科就诊的大量失血患者按照随机、双盲对照的原

期刊

大量失血成分输血全血疗效

对比分析数字X线成像(DR)与16排螺旋CT用于检测小儿呼吸道透X线异物的临床检测价值

目的对比分析数字X线成像(DR)与16排螺旋CT用于检测小儿呼吸道X线异物的临床检测价值.方法选取我院自2011年1月1日-2013年6月30日期间收治的呼吸道有异物患儿50例,作为临床

期刊

数字X线成像16排螺旋CT呼吸道透X线异物小儿

百年之久的一个数学难题已被解决

一个令人难以兰信的间接证明解决了一个老问题,并且把似乎毫无联系的两个数学领域联系起来了已经向数学家们挑战了一百多年的一个著名数论难题现在已被解决。这个问题涉及数

期刊

椭圆曲线数学难题间接证明数学领域数论高斯整数数学研究数系证明过程类数

Spam filtering based on PLS Feature Extraction

与本文相关的学术论文