基于机器学习的网页质量评测研究及其若干应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:o70078
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从网页质量的角度出发,以用户的浏览体验为依据,构建了网页质量评估模型。文章使用TREC的GOV2作为实验的数据源,构建GOV2上的检索系统作为实验平台,检索系统的构造包括DOM树的创建、网页正文提取、倒排索引的建立和网页去重,实验平台的构建效果对网页质量评估实验至关重要。   接下来本文从GOV2网页集中选取500个不重复的网页,并从质量分类和质量排序两个角度对样本网页进行标注。然后按照网页内部特征和网页关联特征的分类抽取出15个特征,分别观察它们在GOV2网页集和样本网页集不同质量网页上的分布,测试他们对不同质量网页的区分能力。文章使用基于互信息、信息增益、最大对数似然和支持向量机分类面向量的四种方法进行特征选择,最终找到四个最具有区分能力的特征:网页长度、锚文本比例、URL深度和标题长度。   本文提出了特征的几种表示形式,并对它们之间的相互转化进行了讨论,其中重点研究了数值型特征向状态型特征转化的区间拆分方法,提出了一种启发式的区间调整策略,并取得了良好的效果。接下来,文章使用朴素贝叶斯模型、最大熵模型、支持向量机模型和逻辑回归模型对网页质量分类进行建模,对于每一个模型,分别介绍它们的原理和构造方法,并使用多种特征表示形式进行对比实验,最终得出的结果是二值型支持向量机模型可以达到最高的准确率。   本文使用Ranking-SVM和RankNet两种方法对网页质量排序进行建模,并使用多种特征表示形式进行对比试验,最终得出的结论是状态型和二值型的Ranking-SVM模型具有较高的准确率,但是RankNet具有更好的自适应能力。   最后,本文还对网页质量模型的应用情景进行了初步的探索,得出网页质量并不随着网站热点程度的降低而降低的结论,在关键词检索的任务中,基于质量分析的模型优于基于链接分析的模型,同时文章又提出了很多新的应用情景,提出了一些未来的探索方向。
其他文献
近年来,随着移动通讯技术和海量数据的采集存储技术飞速发展,移动运营商积累的数据空前增长。这些数据中包含着关于用户行为习惯的信息,其中用户间使用通话,短信等方式进行的联系
混合动力汽车是近年来受到高度关注并且得到高速发展的一种汽车,其结合了传统动力与电动力,以实现低燃料消耗及低污染排放。混合动力汽车的核心问题是实现最优的动力分配策略以
本文以当前我国军队信息化装备建设为背景,以军用指控软件中无线信息传输研究为着眼点,提出了通过改进军用指挥控制软件中无线消息传输部分的消息队列传输机制,进而提高无线通讯
随着计算机用户个人信息量日益扩大,如何帮助用户在系统中快速找到所需资源已成为当前智能交互行为模型的重要课题。设计用于协助用户查找资源的智能工具可以缩短用户在个人信
万维网已经逐渐成为一个飞速增长的信息仓库,其包含的信息内容也是丰富多彩的。因此,网络信息抽取在信息集成领域也逐渐成为越来越重要的工作。由于大多数课程信息网页不具有固
网络聊天软件的出现极大地方便了人们之间的交流,网络视频电话(VoIP)不但具有普通聊天软件的功能,通过VoIP服务商,还能和传统电话之间实现通话。网络视频电话由于其低通话成本、
区块链技术在2008年出现,在近10年的发展应用过程中,区块链技术在数字货币、医疗、保险、数据存证领域应用广泛。在去中心化的、无信任的网络中,可靠的传递价值与信任是区块链带
无线传感器网络因具备获取和传输工作区域内目标信息的能力受到越来越多的关注与应用。拓扑控制为各节点选择适当的邻居节点,有效地降低了网络的通信能耗以延长网络的生存时
RFID即射频识别技术是一项正在蓬勃发展中的技术。RFID技术通过射频信号自动识别目标对象并获取相关数据,对带有标签的目标物体进行定位和跟踪。在物流和供应管理、生产制造和
我国有不少橘园建在山坡地上,有为数不少的山地橘园没有机动车道,肥料等农资和果品的运输都是依靠人力来完成的,人工运输方式运送效率低,劳动强度大,成本高。简易的工程索道凭借其