基于后缀树的Web论坛信息抽取

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户：lvsby2007

【摘要】

：

针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法。将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA（非确定型

【作者】

：

肖建鹏张来顺任星宋晓光

【机构】

：

解放军信息工程大学电子技术学院,中国人民解放军65012部队

【出处】

：

计算机工程与设计

【发表日期】

：

2008年7期

【关键词】

：

信息抽取分装器后缀树重复模式论坛 information extraction wrapper suffix tree repeated pattern

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对现有网上论坛信息抽取的不足,提出一种基于后缀树的论坛信息抽取方法。将标准化后的HTML文档转换为后缀树,查找出其中的重复模式并产生分装器,将分装器转换为NFA（非确定型有穷自动机）达到抽取论坛信息的目的。该方法运用构造后缀树的技术来抽取论坛信息,较好地解决了现有的抽取方法准确性较差、通用性不强的问题。实验结果表明,该方法具有较高的准确性和实用性。

其他文献

饲料质量对丰鲤和奥尼罗非鱼氮及能量收支的影响

实验比较了丰鲤与奥尼罗非鱼摄食低质和高质两种等能饲料时的氮收支和能量收支.低质饲料的蛋白质含量为34.25%、蛋白质主要来源为豆粕,高质饲料的蛋白质含量为45.44%、蛋白质

期刊

丰鲤奥尼罗非鱼氮收支能量收支饲料质量

聊城商业区位演变研究

撤地设市以来，聊城市商业发展迅速，商业网点的数量迅速增加。在政府的宏观调控及市场规律的共同作用下，聊城的商业区位级别及商业设施更加完善。通过对聊城市城区商业网点区位的

期刊

聊城市商业区位演变Liaocheng city commercial spaces evolution

计算平面点集凸壳的两种新方法

平面上有限点集的凸壳在土木工程及其它许多领域均有很多重要应用，计算几何中的很多应用问题都与凸壳有关。现有多种求平面上点集凸壳的方法，但这些方法要么算法非常复杂，要么编

期刊

平面点集凸壳算法简单性有效性set of planar points convex hull algorithm simplicity efficie

组织内部知识共享影响因素研究与分析

知识共享是组织内部知识管理的重要环节，是企业持续成长的关键和持续竞争优势的源泉。知识共享包括知识发送和知识接受两个过程，由知识拥有者和知识接受者共同完成，其中共享知识

期刊

知识共享关系情景知识共享主体影响因素路径分析knowledge sharing relational context subject of knowle

P2P视频直播数据调度算法

P2P技术解决了传统流媒体应用中的不能支持大用户的问题。而数据调度算法一直是P2P研究中的热点问题。在给出了P2P视频直播系统中节点能力的定义和计算方法后,结合BT中的Rare

期刊

点对点流媒体调度算法节点能力最少优先P2P media streaming scheduling algorithm peet＇s capabilit

基于最小二乘法的印鉴缺损轮廓修补法

作为印章识别系统中的第一步,印鉴提取起着至关重要的作用。就印鉴的预处理问题研究了印鉴图像的提取及对提取印鉴中缺失信息的修复,首先提出印鉴提取的通用模型提取印鉴图像,然后,针对印鉴信息缺失的不同原因,分别采取了不同的修复策略:对因签名等干扰字符覆盖造成的信息缺失采用了结合背景图像和原图像二值图的方法进行修复,而对于因盖章力度不均导致的印鉴轮廓缺损,采用了最小二乘法二次拟合的方法进行了修补。实验结果表

期刊

印鉴提取二值化缺失信息修复最小二乘法轮廓修补seal imprint extraction binarization lost information

基于Bluestars的新的设备查找及散列网形成协议

介绍一种新的方法来解决蓝牙标准中设备查找和散列网形成的问题。同时介绍一种随机的模型，使用这种模型可以基于非常简单的本地规则就能产生高概率连通性的拓扑。在此基础上，发

期刊

蓝牙微微网散列网多跳拓扑bluetooth piconet scattemet multi-hop topology structure

应用计划行为理论研究中国的移动支付发展

应用计划行为理论（TPB）,用更理性和更科学的方法,从更深层次分析消费者对移动支付的态度、他们的担忧、他们希望移动支付需要做哪些改进等。提出了一个针对移动支付的TPB研究模

期刊

移动支付计划行为理论移动终端产业价值链应用模式mobile paymenttheory of planned behaviormobile termi

Solaris下基于角色访问控制模型的研究与应用

操作系统作为信息系统的基础,其安全性不容忽视。访问控制是维护和保证系统安全的重要方式,而基于角色访问控制（RBAC）是访问控制领域新兴的热点。以Sun公司的开源操作系统Solar

期刊

角色权限访问控制多级安全最小特权原则职责分离role privilege access control multi-level security p

分布式入侵检测框架

现有的网络安全系统往往功能比较单一,难以完成网络系统的整体防护要求,难以保证可靠地提供所需的业务,难以保证业务信息的安全可靠。因此,提出了一个分布式入侵检测框架DIDF

期刊

网络安全网络安全管理防火墙入侵检测代理network security network security management firewall in

基于后缀树的Web论坛信息抽取

与本文相关的学术论文