基于自然语言同现词汇的邮件过滤

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:towon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究自然语言同现现象在邮件过滤中的应用,采用同现词汇对作为邮件过滤特征,通过实验对其过滤性能和效果做了详细的分析,实验显示它可以有效改善邮件过滤的性能。
其他文献
文章提出了一种基于小波和Hough变换的仿射不变性商标检索方法。根据商标图像色彩单调、纹理简单的特点,首先对商标图像进行二值化处理并做Hough变换;然后,对经Hough变换的商标图像信息进行规范化处理,使其对应的小波变换具有仿射不变性,并用Mexican Hat小波对规范化后Hough变换信息进行奇异点分析。最后根据奇异点的信息进行商标检索。实验结果表明,该方法在检索效率和检索准确率上均高于现在
渐进直推支持向量机(PTSVM)扩展了直推支持向量机(TSVM),有效地解决了不同样本分布需要人工指定工作集正负样本比例问题。但是,把二分类扩展到多分类并非易事。本文提出了一种基于渐进直推支持向量机的半对半(HAH)多类文本分类算法,实验证明,在训练速度、测试速度、模型大小方面,明显优于一对其它(OAA)、一对一(OAO)、导向决策非循环图(DDAG)方法,分类的准确性与OAA、OAO、DDAG基
PageRank模型的提出使得越来越多的研究者投入到了网络搜索算法的研究工作中。随着针对搜索引擎排序的欺诈现象的出现,出现了很多改进的PageRank算法如Trusmank和BadRank等。但是到目前为止,还没有完全有效的办法来抵制这些作弊现象。在本文中,我们假设Web网络中的各网页之间的关系符合现实中的实际的万有引力定律,通过这种网页之间的引力关系来决定一个网页对另外一个网页的支持的力度。在此
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题。现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题问互为噪声并形成错误语义,从而误导新话题的识别。针对这一缺陷,本文提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型。实验在TDT4和TDT5中获得显著改进,最小检测错误代价
本文提出了一个用于TDT(主题检测与追踪)中的多文档摘要方法。介绍了该方法与传统多文档摘要的区别,该方法能够动态增量的进行摘要,而不必等所有文档收集齐才开始:接着给出了该方法的具体步骤以及一些实现细节;最后介绍了该方法的应用实例以及相关实验结论,证明了该方法是行之有效的。
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料
随着无线通信技术的演进和移动终端设备成本的降低,用户不满足移动服务商提供的固定咨询业务,希望能随时随地从因特网获得更丰富的信息。但移动终端设备的屏幕、运算处理能力以及无线带宽各方面限制,使现有的综合搜索引擎技术无法满足移动搜索对智能、精确、有效等方面的需求。因此本文提出一个适用移动搜索引擎的模型,将垂直搜索引擎技术应用到移动领域,并用模型在移动环境上实现商品搜索验证其可行性。
基于构件复用的软件开发中,可复用构件的检索一直是人们关注的问题。对一个特定的应用领域来说,可复用构件的检索必须跨越多个构件库,由于各构件库刻面的分类视角和述语不尽相同,使得可复用构件的检索比较困难。本文提出了一种基于决策树的构件检索方法,解决了目前在某些专业领域获取第3方构件比较困难的问题,并在构件化虚拟仪器设计中对该方法进行了验证。
虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著的提高检索性能,但不同的词项依存关系却缺乏系统的横向比较。为此,在文档表达上,本文比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,本文在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索
随着Internet信息资源的急剧膨胀和实时更新,如何及时准确、高效地获取所需的信息是信息检索技术需要解决的主要问题。本文提出了一种基于完全加权关联规则挖掘的信息检索模型,给出了它的设计思想及其算法和实现的关键技术。实验结果表明,该模型有效,能够提高信息检索性能,有很高的实际应用价值和推广前景。