【摘 要】
:
随着互联网的发展和信息技术的快速进步,网络已成为人们获取信息的重要渠道。而在网络环境中,与浅层网络相比,Deep Web中包含的信息数量更多,质量更高且一般是结构化的。但是,Deep Web中的信息并不能被直接访问。所以,研究如何获取并利用Deep Web中的信息就显得十分必要。为了高效地利用Deep Web中的信息,本文提出了一种基于随机森林的数据源发现方法和基于文本特征扩展与提取的数据源分类方
论文部分内容阅读
随着互联网的发展和信息技术的快速进步,网络已成为人们获取信息的重要渠道。而在网络环境中,与浅层网络相比,Deep Web中包含的信息数量更多,质量更高且一般是结构化的。但是,Deep Web中的信息并不能被直接访问。所以,研究如何获取并利用Deep Web中的信息就显得十分必要。为了高效地利用Deep Web中的信息,本文提出了一种基于随机森林的数据源发现方法和基于文本特征扩展与提取的数据源分类方法。文章的主要研究内容和取得的成果可总结如下:(1)提出了一种基于随机森林模型的Deep Web数据源发现方法。首先通过分析网页代码及结构,总结得出了一系列网页表单特征。之后,根据这些特征建立随机森林模型用于将Deep Web数据源与其他网页表单区分开,达到发现Deep Web数据源的目的。最后,在UIUC TEL-8数据集上进行了实验,实验结果表明本文提出的方法可以准确地完成数据源的发现。(2)针对Deep Web数据源中由于文本较少导致的特征稀疏问题,提出了一种基于N-gram模型的特征扩展方法。同时,由于在特征扩展过程中可能引入新的噪声,本文利用Word2Vec进行了噪声消除。实验结果表明,特征扩展方法可有效解决包含文本较少的数据源的分类问题,而噪声控制机制的加入也进一步提高了分类的准确性。(3)提出了一种基于注意力机制的Bi-LSTM模型用于数据源的特征提取和分类。Bi-LSTM可以同时获取文本上文和下文的语义信息,十分适合处理文本数据。注意力机制可以为语句中与文本主题更加相关的单词分配更大的权重,令文本的向量表示更加准确。(4)基于本文提出的模型与算法编码实现了 Deep Web数据资源智能挖掘系统。该系统可以实现从网页中自动发现Deep Web数据源并分类,最终建立Deep Web数据源目录。
其他文献
为了使导弹的战斗部能够发挥最大的效能或使导弹能够实现对特殊目标的打击,研究了一种纵向制导律.此制导律能够对落角进行约束,从而使导弹实现对目标的垂直攻击.对传统比例制
稀土离子掺杂聚合物具有掺杂浓度高、荧光强度高、荧光寿命长等优点,不仅可用来制作光波导、光纤放大器与光纤激光器,而且在光纤陀螺及其他光纤探测器件等领域也有广泛的应用
在高速数字电路设计中,差分对传输线可以有效地提高信号质量。应用Cadence软件与IBIS模型对三星S3C6410硬件印制电路板(PCB)中的移动DDR SDRAM进行了差分时钟信号完整性(SI)
鄂尔多斯盆地西南缘是我国北方奥陶系发育最全,出露最完整、地层连续性高的地区之一,前人在地层沉积构造演化及油气远景等方面取得了长足的进展。但对该区奥陶纪古地理位置的
微波谐振腔设计精密,些许尺寸偏差都可能会造成残次品的产生。然而由于谐振腔其内部构造复杂,需要测量的部位很多,采用人工测量费时费力而且效率很低,再加上现有的许多测量装置无法满足其高精度、高效率的在线测量要求。因此研究快速高效的自动化测量设备对于提高产品质量,减少人工成本具有重要的意义。本论文针对微波谐振腔尺寸测量困难,测量效率低的问题,基于激光位移传感器、运动控制系统以及计算机处理技术,提出了一种能
超声速和高超声速湍流流动由于涉及激波、膨胀波、波系干扰、激波/湍流边界层相互作用、大范围流动分离等问题,流动常常非常复杂。当前工程中最常用的RANS方法在计算包含大分
<正> 10月中旬在伊朗首都德黑兰举行的第12届亚洲仪式戏剧节上,由中国戏剧家协会推荐的福建泉州市打城戏剧团演出的《目连救母》,荣获大会颁发的金小丑纪念奖,为泉州争得荣誉
<正>开宗明义,我是一辆韩系小车,2010年2月跟随李先生回家。刚走了1500公里,我就多处故障,让李先生伤透了心。首先是发动机异响:1至4挡时,油门踏板处于轻踏状态下,发动机处传
<正>2016年有诸多事件影响着全球经济金融的运行,既有人民币加入特别提款权货币篮子,美国大选和美联储进入加息通道,又有英国公投通过脱欧意向、日本央行推出负利率政策等。
<正>一、引言闽南地区是闻名遐迩的"戏窝",福建五大剧种中的梨园戏、高甲戏和歌仔戏都在此地繁衍生息,古老的傀儡戏、竹马戏、北管戏也活跃于此。然而,在这一个个熠熠生辉的