面向电子邮件的近似世系关系抽取技术

被引量 : 0次 | 上传用户:zxz6381
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步和科学的发展,信息数据量呈爆炸性增长。面对海量数据,人们往往希望知道某些数据是从哪儿来的,怎么来的。数据世系描述了数据的产生、以及随时间推移而演变的整个过程,被广泛应用到科学计算、生物工程、数据库等领域中。然而现存的世系关系抽取技术,并不支持近似世系关系的抽取,这给世系技术的应用带来了一定的局限。本文研究面向电子邮件的近似世系关系抽取技术。Email是信息时代的产物,已被广泛应用在日常生活中。对于电子邮件的使用者来说,当邮件数量过于庞大且无法明确分类时,需要有一种简便、高效的管理和查询方法,用以帮助获得更多的有效信息。而世系概念的引入能很好地解决以上需求。抽取电子邮件之间存在的世系关系,不但可以将讨论同一主题的Email邮件聚集到一起,还能够描述这些邮件内在的衍生关系。但是目前并没有一种成熟的、针对于Email邮件的世系关系抽取技术。本文针对电子邮件的特点,重点研究支持电子邮件的有效近似世系关系抽取技术。本文首先给出了邮件世系关系、近似邮件以及近似邮件世系关系的形式化定义。其次通过分析EML邮件数据的特征,提出了一种针对于EML格式邮件的信息抽取方法,该算法能够对已有邮件数据进行高效的信息抽取和解码。然后在已有的定义以及邮件信息抽取结果的基础上,提出了邮件世系关系抽取算法,用以抽取邮件之间潜在的衍生关系。并使用建立索引、查询优化等方法,对该算法进行了简单优化。分析了实际应用中可能出现的两种近似邮件世系关系,包括查询内容的近似和主题的近似,分别结合q-gram算法和文本聚类的思想,处理了这两种可能存在的近似情况,并提出支持近似邮件世系关系抽取的算法。最后,实验部分使用了Enron-Email以及随机抽取的500封真实邮件作为数据集,对本文所提出的算法进行了性能测试,并对测试结果进行了对比和分析。实验结果表明本文提出的算法能够高效支持近似邮件世系关系的抽取。
其他文献
一、引言化学的中心任务是按人们的意愿创造新的化学物质和控制化学过程。这一中心任务要求化学必须具有科学指导意义的核心方法、研究手段和理论基础。物理化学正是化学的核
我国现行公司法只对公司高管的勤勉义务进行了简单说明,并未对其进行具体诠释,使该勤勉义务不能对公司高管的行为进行应有的约束。本文拟针对上述情形,在第一部分分析公司高
近来,随着国内工业制造业的迅速发展,相关的船舶建造、大跨度桥梁、海上构造物、大型原油储罐、超高层建筑等不断涌现,中厚板大型焊接构件的生产规模也跟着急速扩大。由于工
随着智能手机的普及,各种传感器被越来越多的应用到移动终端中,以达到良好的用户体验。此类传感器多数都支持I~2C总线传输协议。在移动终端处理器中一般都会集成一个或多个I~2C
图像处理技术广泛应用于当今的各个领域,而FPGA具有逻辑灵活和可并行处理的特点,二者的结合则具有独特的优势。本课题结合国家自然基金项目“基于单目图像和方向的测距系统及
【正】 1989年春夏之交北京的政治风波和去年东欧一些社会主义国家的演变,其外因是帝国主义对社会主义国家施行的“和平演变”。目前这种“演变”还在继续推行,而且越来越把
自1992年中韩两国建交以来,两国关系迅速发展,在社会和文化等方面成为了很好的合作伙伴,语言方面的交流也随之变得频繁,新闻往来日渐密切,并且在新闻标题上呈现出“相互交流、共同
随着国际互联网规模的超高速扩张,用户越来越难以在这些巨量的Internet上发现所需信息。而搜索引擎恰恰解决了该问题。本文的工作主要集中在研究基于元搜索引擎的住房信息搜
云南省的公路穿越地区大都是山高谷深、高差大,地形地质条件复杂,且气候条件恶劣,生态环境制约较大的困难地区。路线不是顺山沿水,就是横山越岭,路线平、纵、横三方面均受到
Sulforaphane(SFN)是一种来源于十字花科植物的异硫氰酸盐,作为一种间接抗氧化剂能够诱导核转录因子2-相关因子2(Nuclear transcription factor erythroid2p45-related factor2