PAT树相关论文
网页结构相似度的衡量在数据仓库、视图增量维护、分布式镜像、信息检索、信息抽取等很多领域具有重要的应用.近年来随着互连网上......
本文论述了基于统计的汉语自动分词系统的原理和过程。本文首先回顾了分词的发展历史,总结了分词的目标,分析了分词存在的问题,总......
随着互联网的不断发展,Web上积累了大量的有用数据,从Web上抽取和集成信息逐渐成为研究热点。Web页面上的信息经常以HTML的形式表现......
随着互联网及其应用的快速发展,互联网上的数据量急剧增长,网页上的数据已经成为一个巨大的数据库,其中包含着大量潜在的有用信息,如何......
随着软件产业的不断发展,程序的规模越来越大,完全依靠手工进行测试的难度越来越大,这就需要一些辅助测试的自动化测试工具。自动......
分词词典是汉语自动切分系统的重要组成部分,词典机制的优劣影响到分词的精度及切分速度。针对汉语中双字词占较大比例的特点及哈......
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一......
结合当前Web站点的数据特点,以信息项在页面中的出现位置为信息抽取的路径,利用PAT树技术,提出了一个多Agent协作的自动信息抽取模......
...
在对相关研究情况进行总结与分析的基础上,通过对HowNet情感词典进行扩 展并利用基于PAT树和统计相结合的分词方法,对从淘宝网站中......
提出了一种基于PAT树型结构的高频字串提取的改进算法,并以此用来获得特定领域网页中的未登录词集合,利用基于语义距离的概念相似......