面向普适计算的正文抽取技术的研究与设计

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:szneptune
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的广泛应用,特别是随着普适计算技术的发展,如何有效地从种类繁杂的网络中,抽取出有价值的信息,让用户通过逐渐融入到人们日常生活的设备(如智能终端、智能手机等)获得最合适的信息服务——普适服务,是目前亟需解决的一个重要问题。基于互联网数据挖掘的正文抽取技术是提供普适的信息服务的基础,利用该技术分析巨大的网络信息源获得服务内容,同时从中提取出供咨询、参考和决策等用途的信息——情境信息,为普适服务中的Web高级应用奠定良好的基础。基于Web的普适信息服务,对正文抽取技术有更高的要求,即:必须满足不限定数据源、全自动化、实现简单、不限定网页类型等。本文结合国家863计划课题和普适计算环境下的需求,对中文网页的正文抽取技术进行了比较深入的研究,取得了以下主要研究成果:1.系统分析和比较了现有的正文抽取方法。这些方法包括:基于模板的方法、基于视觉特征的方法、基于本体论的方法、基于统计的方法。这些方法各有侧重地解决了信息抽取中面临的问题,总体上取得了良好的效果,但在某些方面存在不同程度的局限或缺陷,导致都无法满足普适环境下信息抽取技术的要求。2.基于上述的分析,本文提出了一种基于统计与正文特征的网页正文抽取方法。该方法在保持统计方法原有特性的同时,利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,本文首先基于统计的方法获取一条正文路径,然后通过学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文。试验表明该方法抽取单正文和多正文的精确率分别为93.6%和91%。3.在上述方法的基础上,本文设计了一个在普适环境下的正文抽取插件。该插件在不限定数据源、全自动化、实现简单的同时,能够处理单正文体网页(如新闻类网页)或呈现在网页中视觉效果相似的多正文体网页(如bbs网页)。将该插件应用到目标智能系统——“以用户为中心多服务融合的新型访问终端”。目标系统的实际运行结果表明,该插件是有效的。
其他文献
网格是构筑在互联网基础之上的一门新兴的分布式计算技术,它不同于一般传统的分布式计算,网格计算着重于大规模的资源共享、创新应用,并在一定情况下定位于高性能计算,已经成
随着对Web服务技术研究的不断深入,为了实现智能化的Web服务提供,出现了语义Web服务。语义Web服务是Web服务和语义Web结合的产物,它的目标是通过对Web服务进行语义描述,使其
随着图像传感器技术的发展,多传感器图像融合技术得到了迅猛发展,已经成为图像理解、计算机视觉等领域中一项重要的技术。多传感器图像融合就是把多个不同传感器获得的同一场景的多幅图像,或同一传感器在不同时刻获得的多幅图像合成一幅包含输入图像相关信息的图像的过程。通过综合利用不同图像之间的互补信息和冗余信息,获得对该场景更为全面、更为准确的图像描述。在多传感器遥感图像融合技术中,关于多光谱图像和全色图像的融
WWW是一个开放的全球性资源,它是世界上最丰富和最密集的信息来源。随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。数据挖掘就是从大量的数据中
为了贯彻中央“让群众喝上放心水”的重要精神,促进农村供水现代化管理水平与效率的提高,提供实用供水信息化管理工具,作者受委托参与本课题,进行了某省农村饮水工程信息管理
数据挖掘是目前发展最迅速的海量数据分析与处理技术。数据挖掘中的关联规则挖掘得到了人们极大的重视,并且已经在商业领域广泛应用。多维关联规则作为关联规则的一种重要形式
过程层析成像(PT)技术是近年来飞速发展起来的一门新技术,该技术在解决多相流检测问题上具有巨大的发展潜力和广阔的工业应用前景。电容层析成像(ECT)技术是基于电容敏感机理
产品试验台计算机测控系统在制造业中得到越来越广泛的使用,由于具体的产品试验台计算机测控系统的应用有很强的针对性,因此研究这类系统的提高软件可重用性的方法是一个很有
目前的搜索引擎大多是综合性的,收录各方面、各学科和各行业的信息,在反映专题或专业化信息方面很难做到全、快、准。因此课题完成了基于行业的个性化搜索引擎。该论文总体分
计算机技术没有应用到考试上时,组织一次考试至少要经过五步,人工出题、考生考试、人工阅卷、成绩评估和试卷分析,教师的工作量会很大,并且其工作将是一件十分烦琐和非常容易