Web中的行情数据抽取与预测研究

被引量 : 0次 | 上传用户:jasn114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术的飞速发展,万维网已经成为世界上最大的资源库,面向Web数据的挖掘与应用成为数据挖掘领域的研究热点。其中,针对Web中大量动态表格形式的行情数据的有效获取和预测,具有理论价值和实际意义。本文主要针对这一课题开展研究,内容如下:(1)提出了Web行情数据抽取算法和Web页特征抽取算法。两个算法都充分利用了HTML的语法规则和Web页设计规律。Web行情数据抽取算法主要基于“Web行情数据通常在网页中表现为区域最大的数据表格”等规律,首先自动识别出最大的数据表格,然后转换为DOM树结构,最后抽取DOM树的结点值。与传统算法不同,算法无需用户定义抽取数据区域,实现了自动抽取。为了描述被抽取的页面,提出了Web页的元数据描述模型及元数据提取算法。元数据抽取算法充分利用Web页规律,通过正则表达式实现了有效抽取。实验表明,Web行情数据抽取算法和元数据提取算法均具有较好的性能。(2)开展了Web行情数据的预测研究。行情数据预测需求一般分为长期预测(一年以上)和短期预测(一年之内)。利用Web行情数据抽取算法获取某农产品报价数据后,针对长期和短期预测需求,分别运用多个时间序列预测模型、使用不同的样本数据,比较预测模型和样本数据对预测性能的影响。实验表明,长期预测采用线性季节模型和长期样本数据的性能较好;短期预测采用Holter-Winter季节模型和短期样本数据的性能较好。(3)设计并实现了一个农产品价格预测原型系统。该系统针对某个农产品,自动从特定网站获取每日价格行情数据,以图式显示指定样本区间的价格数据,并根据用户输入的预测区间选择模型进行价格预测。
其他文献
<正>在日本音乐史上内教坊一词初出于天平宝字三年(759,《续日本纪》卷22),它初现于日本宫廷中宴请宾客及外国蕃客时奏踏歌。内教坊在正月十六日踏歌节的宫廷仪式上出现外,9
本文采用血管造影检查对56例长期血透患者的动静脉内瘘进行了临床观察.结果表明静脉狭窄和静脉动脉瘤发生率最高,分别占并发症的44.8%,静脉狭窄以距瘘口5 cm之内最为常见,其狭
针对基于主动式传感器的无人驾驶飞机导航系统在实际应用中存在的体积庞大、成本高等问题,介绍一种由传统透视相机和具有等距性的反射镜面组成的相机镜面系统.镜面的等距性使
我国水库移民经历了五十多年实践,取得了巨大的成就,积累了丰富的经验,同时也造成了一些历史遗留问题。随着经济体制的深刻变化和人们市场主体意识不断增强,水库移民又出现了许多
基于海事船舶的管理及技术现状,文中从使用轻重油转化设备、使用化学添加剂、推广玻璃钢船型、采用经济航速、加强维护保养等方面分析了海事船舶节能减排的有效途径。
在经济全球化和区域经济一体化迅猛发展的21世纪,跨国并购不仅逐渐成为企业拓展国际市场迈向全球的重要方式,也成为东道国引进和利用外资的主要途径。改革开放以来,我国一直
随着英语作为第二语言的普及,困扰广大英语学习者的问题也随之出现--为什么学习英语的人各有成败?怎样才能学好英语?针对学习者在英语学习中遇到的问题,广大学者和教育者积极
话剧文学剧本《电梯故事》以公寓楼里发生故障的电梯为特定场景,讲述了中秋夜分别被困在两部电梯中的5个人(年轻男女袁熙与杨霏,中年夫妇宋思清、赵丽嘉和水电工小张)由相互
公立高等教育机构的法律地位是研究我国高等教育体制改革的前提和基础。《中华人民共和国高等教育法》(以下简称《高等教育法》)明确规定:公立高等教育机构具有法人的民事主体
随着中国国内电信体制改革的深化,WTO的加入,移动通信运营业的竞争也日趋激烈。与其他行业相比,移动通信运营业拥有更多有关用户的数据。谁能正确地挖掘与分析隐含这些数据中