论文部分内容阅读
邮件针对性发送是以电子邮件为传播载体的一种网络营销形式,应用非常广泛。对于邮件营销来说,用户邮箱地址的获取至关重要,直接影响邮件营销的效果。一方面,如果盲目地获取大量邮箱地址,不仅会造成资源的浪费,还会遭到用户的反感。另一方面,如果仅仅通过电子邮件订阅方式获取用户邮址,可能会错失大量潜在客户。因此,我们希望找到一种获取潜在用户邮址的方式,既能精准地获取目标用户的邮址,让潜在客户有机会获取到感兴趣的资讯信息,又可以最大限度地保证不打扰到其他用户。本系统旨在精确提取到潜在客户的邮箱地址,主要包括邮址精确提取和邮件针对性发送两大模块。在邮址精确提取模块,本系统采用基于搜索引擎关键字的搜索方式,提取到与该关键词相关的邮箱地址,并且通过多种过滤方式及有效性检测实现邮址的精准提取。在邮件针对性发送模块,系统首先向用户试探性发送一封资讯信息,然后根据用户退信、回复以及退订标记剔除非潜在客户邮址,提高邮件发送的针对性。为了提高系统的精准性和针对性,本文主要做了以下几点工作:第一,通过链接过滤来提高邮址的精准度。首先,本系统会对搜索引擎返回结果页面上的无关链接进行过滤,然后,本系统会将关键词与获取链接的标题进行匹配,进一步过滤无关链接,从而提高邮址与输入关键词的相关度。第二,采用多线程抓取提高邮址提取的效率。在获取到超链接队列后,本系统采用多线程技术实现批量工作的分配,提高了解析链接的效率。同时为了避免出现占用资源超过系统限制导致的程序假死状态,对多线程的数量做了限制。第三,采用深度搜索技术。深度搜索即获取搜索结果链接对应页面内的链接以及其展开的下级链接的过程。用户可以根据需要设置不同的搜索深度。但为了提高提取邮箱地址的相关度,本系统对搜索深度的最大值做了限制(最大搜索深度3)。第四,对页面进行邮箱地址匹配时,采用HTMLParser与正则表达式结合的方式,提高了提取效率。和采用输入流逐行匹配的方式相比,使用HTMLParser直接抽取纯文本内容进行匹配的方式,效率更高。第五,通过邮址纠错、邮址校验和邮址有效性检测来提高邮址的质量。第六,系统可以实时标记发送状态、退信情况以及回复情况,并及时剔除非目标用户的邮址,提高后续邮件发送的精准度。