基于自动化文本规则提取的数据转换技术研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:youshulin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,不断膨胀的数据背后隐藏了太多富含价值的信息,单靠人工挖掘显然不切实际,使用一些辅助工具来帮助分析数据显得尤为必要。虽然现在市面上有不少相对成熟的ETL(即数据抽取、转换、加载)工具,但它们往往存在着一个共同的问题:不少数据转换工作需要编写代码才能实现。这种与数据分析本身关系不大的工作不仅需要消耗不少时间,而且也让编程能力较弱的数据分析师难以上手。针对这个问题,本文设计实现了一种自动化文本规则提取技术,并将其运用到数据转换过程中。该技术从需要提取规则的若干个字符串出发,首先生成一个能匹配所有输入字符串的正则表达式的集合,然后在这个集合上筛选出用户最可能需要的若干条规则,最后将这些规则推荐给他们。通过运用此技术,数据分析师无需编程即可方便地进行较为复杂的数据转换。为了验证此技术的可行性,我们配套实现了一个基于交互的数据转换辅助系统。该系统读入纯文本数据,以用户选取的一系列文字作为输入,通过文本规则自动提取技术将其转化为若干条用户最可能需要的规则,方便他们快速地进行数据转换。此外,本系统还提供了所见即所得的交互界面,让用户方便地预览推荐规则的执行效果;对每条规则都生成了对应的类自然语言,方便用户理解该规则的含义;在所有数据转换完成后将整个处理过程导出,方便在相同格式的大数据集上进行批量处理。最后,本文通过实验对规则自动化生成及筛选算法中的关键参数分别进行了调优,并比较了辅助系统与Excel处理若干纯文本数据集的时间效率。经测试,使用了文本规则自动化提取技术的辅助系统的处理效率显著高于Excel,可见此技术在数据转换阶段具有实用价值,能够帮助数据分析师把工作完成得更快更好。
其他文献
在车联网环境下,利用车载MIMO-OFDM雷达通信一体化信号,将估计出的波达方向角(direction of arrival,DOA)结合车辆之间的距离和速度信息就可以实现车联网中的定位,因此,DOA估
近年来,频繁爆发的突发事件不仅会威胁公众正常的生产和生活,还会给社会带来难以估量的经济损失,甚至破坏稳定的社会秩序。突发事件发生后人们对突发事件相关信息异乎寻常的需求往往易导致多种舆情信息广泛扩散,并且多种舆情信息间往往存在出现时间差异。舆情危机作为突发事件的衍生事件之一,为应急管理者做出有效的应急决策带来巨大挑战。在此背景下,本文综合采用了理论分析与案例分析相结合、仿真分析与实证分析相结合的研究
无人机技术在现代战争和民用领域都有着十分广阔的应用,如何使无人机实现在规划区域内完成飞行任务成为了国内外研究的热点。无人机的航迹规划的核心内容是在满足一系列条件
LTE-A系统中用户终端开机后进行的第一个物理层过程是小区搜索,小区搜索的作用是用户终端利用同步信号取得与基站的下行时间与频率同步,并检测用户所在小区的物理层小区标识
网络通信数据量与日俱增,数据的安全可靠传输成为世界关注的焦点。尤其是在竞争日益激烈的今天,越来越多的人意识到了数据安全的重要性,在某种意义上数据是财富、技术、速度
近些年国家快速发展,很多公路工程都会侵占坡地建设。在西南地区广泛分布着红黏土又降雨频繁,而红黏土所具有独特的性质促进了滑坡的发育,使滑坡灾害频频发生。柳州市位于广西区中部偏北位置,有大量占用坡脚的工程项目。本文以公路施工造成土质斜坡发育滑坡的横十三路红黏土滑坡为研究对象,通过对滑坡区现场调查和土工试验得到的相关数据分析研究,讨论滑坡形成过程、稳定性状况得到结论,并与实际监测数据对比分析。具体内容如
发病4.5小时内静脉应用重组组织型纤溶酶原激活物(recombinant tissue plasminogen activator,rt-PA)溶栓治疗是脑梗死超急性期最主要、有效的治疗[1,2]。目前,合并未破裂颅
员工激励这一话题,一直都是人力资源管理者关注的论题,也是近些年来社会广泛关注的热点话题。华为“996”工作制曾引起广泛讨论,然而实际上,据国家统计局数据,2020年上半年全国企业就业人员周平均工作时间为44.8小时。我国企业就业人员以每周工作五天计算,平均每天工作时间已将近九个小时。因此,达到“996”工作制的就业人员不在少数。并且,华为“996”工作制不但没有降低员工的满意度,反而使企业、员工的
水下声呐成像技术是唯一远距离获取水下目标信息最有效的方式,是探索水下未知世界的重要工具之一。然而其存在易受环境干扰、成像后的图像质量差、对比度低等问题,严重影响后
随着我国大力建设电力及高铁网络,大规模、成批量油浸式变压器已投入使用。热点温度是引起变压器热老化并退役运行的关键因素,其与变压器绝缘寿命、过负载能力及热设计等息息相关,进行油浸式变压器热点温度预测及定位方法的研究,对于保障、提升我国规模化电网及高速铁路网的安全可靠、高效稳定及经济节能运营具有重要意义。对此,本文开展了以下研究:首先,为探究油浸式变压器内部饼式绕组的热特性,针对一台额定容量为66 M