Web挖掘技术及其在邮件系统中的应用

来源 :南开大学 | 被引量 : 0次 | 上传用户:heyzol
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文采用向量空间模型(Vector Space Model,VSM)来表示文本.针对特征向量维数较大、冗余词较多的问题,我们增加了语义处理过程,克服了传统词条权重只考虑词频的不足,从而构造出更能表征原文的特征向量.该文还提出了一种基于向量空间模型的多层次Email分类方法.也就是把各类按照一定的层次关系组织成树状结构,并将一个类中的所有训练文档合并为一个类文档,在提取各类模型时只在同层同一结点下的类文档之间进行比较;而对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的叶子子类.实验表明,该方法具有较高的正确率.作为以上技术的实际应用,我们设计了一个智能Email分类器系统—EmailClassifier来解决Email的自动分类问题.我们不仅介绍了该系统的结构框架,而且提供了实现过程中所遇问题的解决方案.
其他文献
该论文围绕这个目标完成了以下的研究工作:1.介绍了该论文的研究背景和内容自适应的基本概念,对国内外的相关研究工作进行了系统的回顾和概述,阐述了网络信息获取的瓶颈之一
CAD/CAM技术起源于航空工业,由于飞机外形复杂含有大量的自由曲面,所以CAD/CAM技术从一开始就与自由曲线曲面造型紧密联系在一起。至今,曲线曲面造型模块仍是CAD/CAM系统的最关
应用CO2气敏陶瓷型传感器结合单片机数据采集系统来测定铝电解槽阳极气体成分,进一步计算铝电解槽电流效率,是一种新的电流效率的测定方法。本文设计了以新型纳米电子陶瓷电容
风力发电是风能利用的主要形式,也是目前可再生能源中技术最成熟、发展最快、最具有规模化开发条件和商业化发展前景的发电方式之一。风力发电机叶尖速比控制问题是近年来变速恒频风力发电技术的重要研究领域。然而目前,工业现场对风力发电机转速的控制多采用开环设定方法或是线性PI控制方法,不能达到满意的控制效果。而现有的非线性控制方法也多存在计算复杂和算法依赖模型等不足。鉴于此,针对风力发电系统,探索一类计算简单
该文以茅台酒集团企业信息化平台开发为背景,提出了基于软件复用的软件开发过程解决方案. 该文首先从软件开发过程入手,分析了软件系统开发过程中的几个阶段,指出要提高软件
本文研究移动通信基站天线中的三个关键问题,波束赋形、波瓣宽度、无源交调。在波束赋形中,采用遗传算法对天线阵列的激励参数进行优化,同时引入比例积分算法,得到较好的结果。在
学位
近年来,世界各国都在积极发展以Internet为媒介的第三代远程教育。实施现代远程教育工程,对于共享优秀教学资源、扩大受教育的范围、实现学科优势互补、增加一种新的办学形式和
电力系统日益变得庞大,结构日益复杂,配电网可靠性的建模和计算变得更加困难。因此,如何在求解精度与计算量之间进行适当平衡,如何寻求快速有效的计算方法,都是有待人们进一步探索的问题。基于这点考虑,我们通过对配电网可靠性评估算法的研究,选用网络拓扑算法,并采用面向对象程序设计技术(OOP)开发了一套配电网可靠性评估系统。 本系统在图形表达方面提出了新的设计方法。利用系统开发的专用作图工具,可输入配
该文主要采用了两种非线性分析方法实现脑电波对麻醉深度的监测:一是以Lem-Ziv算法为基础的Kaspar和Schuster定义的复杂性测试C(n),采用C(n)的原因是它适合于度量高维非线性