非结构化数据提取方法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:edison_young
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及和互联网的迅速发展,大量的数据以网页的形式呈现在人们面前。面对这海量数据,人们不知道如何确切描述自身的数据需求,使得直接使用浏览器访问网页以找寻所需数据的效率不断下降,表现出了资源迷向问题:并且,由于Web数据格式异构性和缺乏关联描述的特点,对于已经获取的大量数据用户难以及时的理解,出现信息过载现象。所以如何将Internet上这些非结构化数据及时准确的提取、过滤和归纳成便于人们查询检索的形式,已经成为了研究开发的熟点。  数据提取早期是为了处理纯文本文件,之后还涌现了一些其他的方法,比如机器学习算法,基于Ontology和自然语言理解算法和基于HTML的方法等等。基于不同的方法都可以在不同程度上实现特定数据的提取,可以说各有优缺点。但是限于网页数据的特点,这些数据提取算法在某一领域或是针对特定问题方面还是比较理想,但就其通用性和可维护性方面都不能达到令人满意的程度。  本文针对数据源提供网站的特点,结合网络爬虫技术,采用基于DOM树结构的XML和 XPath的方法建立提取规则。这种方法主要是通过在XML文档中寻找与XPath位置路径表达式相匹配的节点,以实现自动对同一站点网页簇数据进行批量提取,达到一次学习多次提取的目的,该方法具有定位准确、提取快速的特点。而且这种规则还可以根据不同网页簇进行修改以适应不同的网页结构,提取结果达到较好的准确率和查全率。
其他文献
语音信号中含有大量的冗余信息,如何在尽量减少失真的情况下,高效地对语音信号进行压缩编码,仍然是一个十分重要的课题。本文依据最佳小波包分解理论对语音压缩算法进行研究
学位
近年来,无线通信发展突飞猛进,单纯的语音通信已经不能满足用户对高速数据通信的需求,数据通信成为了运营商的新增值点。其中在IP数据业务中,又以Wi-Fi技术得到了广泛的关注,并且
一些敏感电子设备耐受高电压、大电流的能力很差,这时片外应用性能良好的静电放电防护器能使防护效果得到显著提升。静电放电对防护器件的作用会直接影响到设备的正常工作,因此开展防护器件在静电放电脉冲作用下的响应研究具有十分重要的工程应用价值。目前对于各防护器在静电放电作用下的响应研究很少,而静电放电恰恰是电子设备面临的主要电磁危害源。本文重点研究了静电放电的防护器的性能。主要研究结果如下:单器件的测试与分
本文通过对荣华二采区10
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
有机电致发光显示器(Organic Light Emitting Display, OLED)是目前国际上广泛研究的新一代前沿显示技术,而OLED向大屏幕高分辨率发展必须结合有源矩阵(Active Matrix,AM)驱
在无线通信中,分集技术是一种对抗多径衰落以及信道干扰的有效技术。协作通信技术融合了分集技术和中继通信技术,可以有效地提高网络传输的可靠性。重叠频分复用技术通过频谱的
鸣禽能够产生丰富的鸣唱语句,研究这种发声行为的神经基础对揭示人类语言行为的形成机制具有重要的意义。但对鸣禽鸣唱行为的研究多集中于鸣唱简单的可以人工繁殖的种类,而针
外界生物和非生物的胁迫诱导烟草内源茉莉素(JA)的积累,进而促进根部合成尼古丁,并通过木质部运输到地上部分参与植物的胁迫应答反应。但是,这一过程中茉莉素诱导尼古丁合成