基于网页结构特征的网页主要文本信息抽取策略

来源 :现代计算机(专业版) | 被引量 : 0次 | 上传用户:chaoyue0130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据网页文本信息的存储特点,提出一种网页文本信息抽取策略,有效地实现了对文本丰富型网页中主要文本信息的抽取工作,该抽取方法具有较强的空间适应性和时间适应性。
其他文献
针对基于角色的访问控制技术(RBAC)的特点,利用领域分析方法进行综合分析,根据构件化的分层模型,对分析得出的业务需求模型进行构件的提取工作并采用UML对访问控制领域构件进行
研究基于RBF神经网络的算法针对遥感图像的几何校正,给出一个简单快速的实现方案,通过对实际图像进行了校正实验,获得满意的校正结果,说明该方法能有效地精确校正图像的几何畸变。
汶川地震发生后,各大主流媒体几乎同时与救援队伍到达地震灾区最前沿,跟踪报导地震灾情和救援情况。公开透明的信息传播极大地提高了抗震救灾的效率,给救灾工作带来无形推力,成为
在测控领域,LabVIEW由于其简单、灵活的特点而受到广泛的应用,然而使用LabVIEW构建大型的测控软件时,在团队合作、后期维护方面就显出其不足,甚至一个很小的改动都可能导致灾难性
粗糙集理论能有效地分析和处理不精确、不一致和不完整等各种不完备信息.并能从中发现隐含的知识,揭示潜在的规律。讨论粗糙集理论用于医疗诊断中的方法,实践表明该方法具有重要
随着Web信息的急剧增长使搜索引擎专用化成为发展趋势。根据当前的需求提出了实现建筑业信息搜索引擎设计方法,重点论述主题搜索引擎的信息采集策略,并给出了一种比较理想的
提出一种自行设计的视频序列目标跟踪系统,采用C/S模式将视频数据传送给Linux终端,通过颜色直方图反投影,将每帧RGB输入图像转换为二维的颜色概率分布图像,基于CAMShift算法计算目标跟踪窗口的位置和大小。Linux终端的图形用户界面采用GTK+图形库设计。为了提高数据的传输效率,在客户端引入定时器,对解压后的视频数据定时读取。实验结果表明,在目标有遮挡、旋转等情况下,系统仍能有效跟踪,能够
为了使非计算机专业的学生能在计算机网络应用课程中熟练掌握DHCP服务的配置技术,提出在DHCP实验教学中强调以“学”为主、以“教”为辅的教学模式.并在验证性和设计性两类实验
基于B/S模式的Java Web平台架构实现一个全文搜索引擎。该系统使用MySQL作为后台数据库.并采用Heritrix、Lucene等优秀的开源框架实现对某网页手机产品信息的检索。系统还利用S
自本世纪初加拿大多伦多大学Richard Florida教授提出创意资本理论以来,欧美学者从不同的视角对该理论进行了大量的深入研究。然而,欧洲学者结合当地发展实际研究发现该理论