Web信息语义特征获取技术

来源 :东北大学 | 被引量 : 0次 | 上传用户:liongliong596
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展及个人电脑的普及,越来越多的信息被发布到因特网上。Web信息门类齐全、数据量庞大,几乎无所不包,然而面对如此庞大的信息海洋,用户关心的只是其中很小的一部分信息,需要提供有效的搜索引擎或信息集成工具,帮助用户快速、准确地找到其所感兴趣的信息。在海量Web数据空间中,Web信息通常以网站的形式进行组织,各网站设置自己的分类目录以实现信息页面按类别组织和发布。然而不同网站进行类别划分时,标准不统一,分类用语不规范,存在明显的语义差异,难以相互兼容、合并,更无法实现多源Web信息的有效集成。因此迫切需要提供一种有效的Web信息语义特征表示方式,以解决网站分类语义异构问题。为解决网站分类信息的语义异构问题,本文阐述了基于向量空间模型和基于重复模式的语义特征表示方法及两种表示方法的语义更新策略。在分类体系中,将分类概念作为描述Web信息类别的原子节点,通过标准化的分类概念语义特征体现Web信息类别的潜在语义信息,从而实现Web信息的统一理解和规范性描述。以网站分类语义统一理解及规范性描述为核心,为实现Web信息语义特征标准化,本文的研究内容包括:Web页面信息获取技术,Web信息语义特征表示方法研究及Web信息语义特征时效性及更新策略研究。首先,完成Web页面信息下载和HTML标签解析,从Web页面及其结构中提取出描述及表示语义特征的有用信息,改进现有TF-IDF权重计算算法,提高特征项权重的准确度;其次,分别采用两种表示方法进行Web信息语义特征规范化描述。基于向量空间模型的语义特征表示方法通过对样本网页分词、数据清理、特征权重计算、特征选取、生成特征向量等操作将每个分类概念表示成特征向量。基于重复模式的Web信息语义特征表示方法采用相关矩阵法发现Web网页中所有的重复模式,通过γ近似匹配算法对不同类别中相似的重复模式进行归一化处理,得到分类体系中每个分类概念的重复模式及重复次数对语义特征进行表示;最后,根据Web信息变化性和时效不确定性,制定语义特征更新策略,在相应时间内更新所属分类概念的语义特征,使语义特征的表示更加准确。
其他文献
H.264是新一代的视频压缩标准,压缩效率高,但算法复杂度大。ADSP-BF561处理器是Blackfin系列中的一款高性能DSP产品,价格较低,处理能力较强。目前,在ADSP-BF561上实现的H.264
随着互联网的发展和应用的普及,电子邮件已经成为人们日常工作和生活中不可缺少的一种方便快捷的通信手段。但是近些年来,互联网上的垃圾邮件问题日益严重,垃圾邮件的形式和内容
图像分割在是图像处理技术中的关键步骤,人们接触到的图像是由像素组成的复杂变化的系统,该系统所得的最优分割对于计算机来说是不可知的,很难用明确的数学模型得到最优解。
随着社会的不断发展,人脸检测和识别技术得到广泛的关注。人脸识别技术在生物识别中占有重要的地位,经过三十多年的发展,已经取得了长足的进步。目前大多人脸识别系统可以在
随着视频处理在嵌入式应用中的不断增长,嵌入式视频系统的复杂度不断提高,系统规模逐步扩大,视频产品的推出时间也在不停地缩短,这使得嵌入式视频系统的设计开发面临着系统日
随着网络带宽容量迅速增加,网络设施日益更新,入侵方式也层出不穷。蠕虫等网络入侵攻击不仅对个人计算机、服务器的正常运行造成破坏,甚至会对路由、交换等网络基础设备的正
网格将整个互联网整合成一台超级计算机,实现各种资源的全面共享,可求解资源消耗大、计算复杂度高、在传统技术下无法有效解决的问题。网格系统需要监控各组件的运行状态以及
苛刻环境通信系统蕴藏着巨大的潜在应用价值,抗电磁干扰机制与算法是众多应用的核心支撑技术。为了提高系统在恶劣环境中的通信能力,本研究拟通过冗余和低电压差分方法为抗电磁
位置服务作为移动互联网时代的基础服务,在人们的日常生活中扮演着越来越重要的角色,据统计将近80%的应用与位置服务有关。位置服务中移动用户需要与位置服务提供商共享其位
运用语义万维网(Semantic Web)需要对传统的网络资源进行一些具有一定语义的标注。目前建立用于标注的本体(Ontology)是比较困难的。为了降低技术难度可以用一些具有结构化信息的