【摘 要】
:
随着互联网的飞速发展,越来越多的互联网用户开始成为电子邮件的受益者,同时网络空间中的电子邮件信息量也呈现出不断膨胀的趋势。电子邮件作为人们常用的一种通信工具,其中
论文部分内容阅读
随着互联网的飞速发展,越来越多的互联网用户开始成为电子邮件的受益者,同时网络空间中的电子邮件信息量也呈现出不断膨胀的趋势。电子邮件作为人们常用的一种通信工具,其中往往包含着大量的关键信息,这些信息当中的一部分很有可能涉及国家、企业乃至个人的机密。邮件内容安全技术直接关系到国家的政治稳定、企业的数据安全和个人的切身利益,具有重大的现实意义。本文正是在这种前提下,对基于邮件内容的自动文摘技术进行了研究。多邮件自动文摘技术是对内容相关的多封电子邮件进行分析,并根据它们所描述的主题脉络和用户兴趣抽取出重要的信息,并自动生成一篇指定长度的文摘。一个可行的邮件文摘系统对于提高电子邮件监控者处理信息的速度和准确率有很大的帮助。本文提出并实现了基于海量邮件检索结果的多邮件文摘系统,重点对以下几个问题进行了研究和解决:首先,本文综合考虑了电子邮件正文与普通文本在行文上的差异以及系统实际的应用环境,提出了面向用户查询的改进抽取式文摘方法,在一定程度上满足了邮件文摘系统在有效性和实时性两方面上的需求。其次,本文采用最大边缘相关模型解决了文摘句的抽取问题,从而可以保证系统输出的文摘结果在具有较高的准确率的同时使冗余度得到了降低。在此基础上,本文深入地研究了语句相关度计算和线性插值因子对于最大边缘相关模型的影响,进而提出了基于知网的语句相关度计算方法和自适应参数选取两方面的改进策略。邮件文摘的内部评测结果表明,经过改进后的文摘算法在文摘质量上有了明显的提高。最后,本文对邮件文摘的一系列相关技术进行了系统的研究。在邮件信息获取方面,本文实现了邮件的自动解析和正文解码,尤其针对邮件正文内容中无用信息对文摘效果的不利影响,本文提出了邮件正文噪声的概念并采取基于规则的办法将其去除;在正文的快速分词方面,本文阐述了如何利用Trie树结构自动构建分词词典并实现词语的快速查找,极大的提高了系统的响应速度。
其他文献
随着移动通信网络的发展,数据传输速率的提高以及带宽的增加使得无线环境下视频的传输成为可能。但视频数据量非常庞大,而为移动服务所付费用又与无线链路上传送的数据量成正
离群点挖掘包括离群点检测和离群点分析两个方面,是数据挖掘中的一个重要部分。为有效的检测出离群点,研究人员开发了大量的离群点检测算法。如:基于统计、基于距离、基于密
活动多实例模式是一种重要的工作流模式,定义多实例活动可以大大简化工作过程的定义。多实例活动可以从整体上表示群体执行同样任务的情况,将活动多实例应用于工作流管理系统
句法分析已经成为当前自然语言处理研究的重点和难点。面向依存文法的句法分析方法主要是通过获取句子的核心动词及其所支配的词语搭配,进而分析句子内词语之间的依存关系,以
人类基因组计划的完成标志着生物信息学研究进入了后基因时代,人们开始系统的研究基因之间的相互作用关系,建立起基因及蛋白质调控网络,试图从系统的角度阐述基因的功能。 本
供应链管理(SCM)主要是协调决策单位间的生产运作,实现整体流程的优化与资源的充分利用。通过企业合作,增加市场竞争优势,在短时间内满足成员多样化需求的能力。可广泛应用于企业生产、销售等领域。具有重要的理论研究价值,因此受到广泛关注。近些年来,关于供应链协调优化的相关研究,主要是基于层次式计划模式。该模型假定单一决策者掌握生产制造的全部信息,并对供应链生产运作进行统一集中的决策方式。基于层次式计划模
在网络模拟研究中,单节点计算环境无法模拟大规模网络。并行网络模拟通过引入更多的计算节点可以解决这个问题。方法是将模拟拓扑划分为几个部分,分别由各个计算节点负责模拟
随着信息技术的发展和数字化产品的普及以及Internet广泛深入的应用,从消费电器到工业设备,从民用产品到军用器材,嵌入式系统已被广泛的应用到网络、手持通信设备、消费电子
基于复用的软件开发可以有效的提高软件开发的质量和效率。构件技术在软件复用中扮演着重要角色。而如何识别出粒度合适的构件,以使构件能够满足比较通用的业务需求已成为基于
针对如今计算机病毒和计算机网络的发展趋势,研究一种可以高效并且可以误报率低的新病毒检测方法就显得尤其重要。现存的病毒检测系统,大多数都是采用需要中心节点的单一网络集