论文部分内容阅读
本文从网页质量的角度出发,以用户的浏览体验为依据,构建了网页质量评估模型。文章使用TREC的GOV2作为实验的数据源,构建GOV2上的检索系统作为实验平台,检索系统的构造包括DOM树的创建、网页正文提取、倒排索引的建立和网页去重,实验平台的构建效果对网页质量评估实验至关重要。
接下来本文从GOV2网页集中选取500个不重复的网页,并从质量分类和质量排序两个角度对样本网页进行标注。然后按照网页内部特征和网页关联特征的分类抽取出15个特征,分别观察它们在GOV2网页集和样本网页集不同质量网页上的分布,测试他们对不同质量网页的区分能力。文章使用基于互信息、信息增益、最大对数似然和支持向量机分类面向量的四种方法进行特征选择,最终找到四个最具有区分能力的特征:网页长度、锚文本比例、URL深度和标题长度。
本文提出了特征的几种表示形式,并对它们之间的相互转化进行了讨论,其中重点研究了数值型特征向状态型特征转化的区间拆分方法,提出了一种启发式的区间调整策略,并取得了良好的效果。接下来,文章使用朴素贝叶斯模型、最大熵模型、支持向量机模型和逻辑回归模型对网页质量分类进行建模,对于每一个模型,分别介绍它们的原理和构造方法,并使用多种特征表示形式进行对比实验,最终得出的结果是二值型支持向量机模型可以达到最高的准确率。
本文使用Ranking-SVM和RankNet两种方法对网页质量排序进行建模,并使用多种特征表示形式进行对比试验,最终得出的结论是状态型和二值型的Ranking-SVM模型具有较高的准确率,但是RankNet具有更好的自适应能力。
最后,本文还对网页质量模型的应用情景进行了初步的探索,得出网页质量并不随着网站热点程度的降低而降低的结论,在关键词检索的任务中,基于质量分析的模型优于基于链接分析的模型,同时文章又提出了很多新的应用情景,提出了一些未来的探索方向。