论文部分内容阅读
随着计算机和互联网技术的广泛应用,特别是随着普适计算技术的发展,如何有效地从种类繁杂的网络中,抽取出有价值的信息,让用户通过逐渐融入到人们日常生活的设备(如智能终端、智能手机等)获得最合适的信息服务——普适服务,是目前亟需解决的一个重要问题。基于互联网数据挖掘的正文抽取技术是提供普适的信息服务的基础,利用该技术分析巨大的网络信息源获得服务内容,同时从中提取出供咨询、参考和决策等用途的信息——情境信息,为普适服务中的Web高级应用奠定良好的基础。基于Web的普适信息服务,对正文抽取技术有更高的要求,即:必须满足不限定数据源、全自动化、实现简单、不限定网页类型等。本文结合国家863计划课题和普适计算环境下的需求,对中文网页的正文抽取技术进行了比较深入的研究,取得了以下主要研究成果:1.系统分析和比较了现有的正文抽取方法。这些方法包括:基于模板的方法、基于视觉特征的方法、基于本体论的方法、基于统计的方法。这些方法各有侧重地解决了信息抽取中面临的问题,总体上取得了良好的效果,但在某些方面存在不同程度的局限或缺陷,导致都无法满足普适环境下信息抽取技术的要求。2.基于上述的分析,本文提出了一种基于统计与正文特征的网页正文抽取方法。该方法在保持统计方法原有特性的同时,利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,本文首先基于统计的方法获取一条正文路径,然后通过学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文。试验表明该方法抽取单正文和多正文的精确率分别为93.6%和91%。3.在上述方法的基础上,本文设计了一个在普适环境下的正文抽取插件。该插件在不限定数据源、全自动化、实现简单的同时,能够处理单正文体网页(如新闻类网页)或呈现在网页中视觉效果相似的多正文体网页(如bbs网页)。将该插件应用到目标智能系统——“以用户为中心多服务融合的新型访问终端”。目标系统的实际运行结果表明,该插件是有效的。