论文部分内容阅读
随着信息技术的高速发展和数据库技术在信息管理中的广泛应用,在各应用领域的数据库中已存储了大量的数据。如何从中发现所隐藏的、预先未知的信息,已显的尤为重要,数据挖掘技术就是为解决此问题而产生的。本文针对关联规则挖掘中FP-growth算法的不足,在算法的具体实现过程中对其进行了改进,并将其应用于网上招聘系统之中,通过分析网上招聘系统中的数据来预测招聘者的招聘规律,对挖掘出的结果做出分析,应用关联规则挖掘技术解决了实际问题。本文针对FP-growth算法的不足在算法的具体实现过程中从两方面对其进行了改进:一方面,FP-growth算法是一种效率较高的算法,它不产生候选集,但仍需多次遍历结果集L。针对此问题本文对其进行了改进,改进后的HFP-growth算法将结果集L的数据以项名称对应项支持度计数的形式存入hash表,在找某个项的支持度计数时给hash表传入项名称就能返回对应的支持度计数,节省多次遍历结果集L的时间。实验结果表明,本算法有效地节省了挖掘的时间,在实际挖掘过程中取得了良好的效果;另一方面,由于数据项与条件模式库都要运用建立FP-tree的算法,因此本文对其进行了改进,改进后的DSFP-growth算法统一了数据项的数据结构与条件模式库的数据结构,生成条件树的时候省去了数据结构的转换过程。实验结果表明,改进后的算法效率优于原FP-growth算法效率。将以上的研究成果实际应用于名智网上招聘系统之中,从中发现网上招聘系统中各属性之间的关联规则,即用人单位的录用规律。通过对挖掘结果进行归纳与分析,结合实际工作,有效的协助有关部门在招生过程中对学生选择专业的方向进行指导,克服学生选择专业时的盲目性,优化专业结构,从而提高就业率。