【摘 要】
:
本文针对基于主题的信息抽取提出了一系列新颖的方法来解决抽取过程中所遇到的技术问题。首先,本文提出了一种基于概率匹配和词性匹配的中文分词方法,在提高分词效率的同时,很好
论文部分内容阅读
本文针对基于主题的信息抽取提出了一系列新颖的方法来解决抽取过程中所遇到的技术问题。
首先,本文提出了一种基于概率匹配和词性匹配的中文分词方法,在提高分词效率的同时,很好的解决了中文分词的歧义性问题,为后续的网页聚焦和网页信息抽取工作提供了必要的技术支持。
其次,针对传统的基于主题的网页搜索算法执行效率不高、精确度低的缺点,设计了一种基于机器学习的链接分层搜索算法。该算法通过机器学习,得到页面链接模式并对待扩展结点分层。此算法能够有效地获得期望页面,从而避免遍历大量无关页面,提高了主题相关页面的获取效率和准确性。
最后,在获得产品信息相关页面的基础上,针对产品信息页面的特性,提出了一种基于信息块模式定位的信息抽取方法。该方法基于对网页信息块,属性元素,信息元素的定位,使用标准的XML技术来解决网页信息抽取问题。使用标准的XSLT,利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则,最终生成结构化,标准化的XML标准数据文档。
其他文献
机器视觉是一门发展迅速的新兴学科,它主要指用摄像机和计算机来代替人眼对目标进行识别、跟踪和测量等。随着电子计算机科学,图像处理技术,模式识别技术与理论的迅速发展,机
从美国休哈特(W.A.shewhart)博士在1924年提出世界上第一张质量控制图以来,质量管理理论到现在已经走过了80多个年头,期间经历了三个主要阶段,质量管理理论也越来越完善,但是如何
就当前可穿戴计算机的理论和技术水平而言,它已经达到了一定的高度,然而其应用面和应用点还比较薄弱和单一,但如果它我们能在目前的基础上建立起一个实际的应用,这对于可穿戴
随着时代的发展,具有直观性的视频图像已经逐步取代了比较抽象的文字,所以相对视频图像编码技术得到了大幅度的提升,而近些年由ITU-T VCEG和ISO/IEC MPEG共同发布的新一代国际视
在汽车防撞系统的设计中,安全距离的确定一直是人们关注的焦点,本文基于伪码相关检测原理重点研究汽车防撞系统中的测距问题。 论文第一章简述了目前汽车防撞系统的组成和国
本文通过对河北省省会高校人力资源开发状况的深入考察与研究,探讨了目前河北省省会高校人力资源开发中存在的问题,同时从不同侧面、不同视角阐述了河北省省会高校人力资源开
随着人们生活水平的不断提高,家庭安全服务正在逐渐引起人们的重视。由于子女的上班,很多老人尤其是患病者不能得到很好的照顾,出现险情时不能得到及时处理,存在很大的安全隐
电力电子技术和控制技术的飞速发展,使得交流调速性能可以与直流调速相媲美,目前,交流调速已进入逐步替代直流调速的时代。在高性能感应电机转速、电流双闭环调速系统中,首先要设计电流调节器,然后把整个电流环看作是转速调节系统中的一个环节,再设计速度调节器。因此,电流控制环是双闭环调节系统的重要组成部分,电流调节器的性能直接影响着整个系统的控制性能。人们已经对电流控制做了大量的研究,提出了很多有效的电流控制
在经济全球化、贸易自由化和社会信息化的新形势下,传统的相对稳定的世界市场逐步呈现出动态多变的特征,企业之间过去是在局部区域内进行竞争,而现在是在全球范围内进行竞争;同行
本论文综合运用图像处理,模式识别的理论提出了一种自动提取彩色公路地图道路的方法。首先采用模板匹配、特征抽取等方法提取城市和道路的标识,这些识别出来的标识对后面