论文部分内容阅读
自从1991年Internet上万维网公共服务的首次亮相,各种各样的信息就以指数级的增长速度充斥于Internet中,人们寻找信息的方式也随之发生了变化。从最原始的手工查找,到书签服务,再到传统的搜索引擎,如何从海量的信息中挖掘出有用的质量高的信息成了人们关心的话题。而像Google、Baidu等传统搜索引擎已经日益满足不了人们更为挑剔的需求,尽管它们也做了很大的改进。未来的搜索引擎在传统基础上必须更加智能化、个性化。语义Web在一定程度上从源端解决了信息的语义问题,不过其研究仍处于初期阶段,真正投入使用仍需很长一段时间,并且我们未能保证其运行效果。为了满足人们的近期需求,我们采用数据挖掘和本体技术,从目的端入手,通过挖掘用户的兴趣,为其提供更加智能化、个性化的服务。前提是我们必须有一个良好的用户兴趣模型。本文针对这样的前提,进行了较为深入的研究,并通过实验验证其有效性。以下是其主要贡献点: ①基于HowNet的文本语义计算 文本相似度大多数是采用基于概率统计的传统计算方法,最典型的方法是向量空间模型,将文本表示成特征词向量,然后采用余弦函数或其它相似度函数进行计算。这种方法基于这样一种假设:词间是正交关系。而且往往忽略了词间本身蕴含的语义信息。本文在传统方法的基础上,结合了语义;根据HowNet中描述的概念间关系计算词间的语义相似度,利用二部图最大权匹配并结合传统非语义距离得到文本语义相似度。 ②基于语义的混合聚类算法HCA 为了自动地较为准确地挖掘出用户的兴趣类,本文提出了一种改进的基于语义的综合了k-medoids算法、GA算法和ISODATA算法的混合聚类算法: 1)混合算法被证明是一种可行的优势互补的方法,k-medoids算法虽快速,但易陷局部最优;GA算法具备全局最优的优势,但易受迭代次数与计算代价的影响;ISODATA算法以变异算子的方式防止GA算法陷入局部最优; 2)将文本的语义信息引入GA和k-medoids的适应度函数计算中,提高聚类结果的质量; 3)在GA适应度函数计算过程中,本文考虑了类内聚散度和类间离合度,采用基于语义的CS Measure变体进行计算,保证聚类的效果; 4)在GA迭代过程中,本文引入改进后的自适应的交叉率与变异率,防止GA过早收敛和过度发散。 ③基于HCA的用户兴趣建模 本文采用基于语义的二级向量(特征向量与偏好向量)空间模型描述用户的近期兴趣类,并且每个兴趣类有其对应的兴趣度,因此,模型的每个单元被表示成一个三元组,包括二级向量及其兴趣度。采用基于语义的HCA挖掘用户的兴趣类,并结合文本语义相似度和用户行为计算用户类兴趣度;然后依据所得的二级向量和其对应的兴趣度来构建用户兴趣模型,并将其转化成用户兴趣描述文件。 ④实验验证 最后,本文对上述方法进行实验验证。实验证明(聚类效果采用F-measure进行衡量): 1)在不考虑文本语义并使用同种文本非语义距离计算方法的情况下,HCA相比现有两种传统聚类算法具有更佳的聚类效果,验证了HCA本身的有效性; 2)引入文本语义相似度后,基于语义的HCA及现有传统聚类算法相比未使用语义的本身而言有着显著的聚类质量提升,同时HCA效果好于其他两种算法,表明语义的引入对聚类质量具有显著的改善效果,同时也验证了HCA的有效性; 3)将基于语义HCA的用户兴趣模型,应用于个性化检索实验原型系统PSE中,同未采用本文方法的商业搜索引擎得到的结果相比,其结果更为满足用户的个性化需求。 本文研究提出的基于语义的用户建模技术及其中间关键技术,可应用于各种个性化服务中(如:个性化检索推荐、个性化站点等)。此外,在许多特定领域中都有很大的应用价值和商业价值,如:电子商务、社交网络、图书检索等,这些领域对用户的个性化需求要求很高。