基于数据仓库的数据搜索引擎设计与实现

被引量 : 0次 | 上传用户:persistence2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,搜索引擎的应用已经深入到各个领域,成为了人们获取信息的一种最常使用的有效手段。目前市场上比较流行的搜索引擎,如Google、Baidu等,都是面向公众领域的普适化搜索引擎,检索的信息也基本上以网页、博客、文档等非结构化信息为主。对于一般企业来说,信息的结构更多的是结构化数据,存放在数据仓库、ERP、 OA等信息系统中,并且随着信息化水平的不断提高,企业也积累了大量的数据,如何更好的利用这些信息为企业决策提供支持,也是企业面临的痛点。针对这一广阔的市场,我们结合搜索引擎和数据仓库两大理论特色,设计并实现了构架在数据仓库之上的搜索引擎系统,利用数据仓库的标准化数据模型,结合搜索引擎的特点.系统允许用户使用自然语言进行查询,为企业提供一种信息查询与展现的信息检索新形式,降低了IT系统的技术壁垒,从而促进信息共享和深度挖掘。本文的主要工作和研究成果包括:1.针对结构化数据存储,结合数据仓库多维模型,提出语义层的抽象封装方法,规范了数据存储结构;2.优化搜索引擎的索引结构,使之适合结构化数据查询,并实现基于正则表达式的关键字识别,提高了分词识别精确度;3.采用中文分词技术并整合IKAnalyzer开源控件实现查询解析,使得用户可以采用自然语言作为查询入口,允许用户直接输入业务短语进行查询,并且结合编译原理技术,实现自然语言分词中的表达式解析,对结构化数据进行条件筛选,自动生成查询SQL语句;4.针对结构化数据的搜索特点,对搜索结果展现模式进行优化,为用户提供更方便的搜索界面。该数据仓库搜索引擎系统已在上海烟草集团数据中心的信息服务中得到实际应用,取得了预期的应用效果。
其他文献
近年来,随着人们生活节奏的不断加快,饮食不规律,嗜食辛辣及过度心理压力,十二指肠溃疡的发生率逐年增加。笔者自2010年~2012年,采用化肝煎合左金丸治疗肝胃郁热型十二指肠溃疡52例
自党的十八大以来,习近平总书记对传承中华民族优秀传统文化发表了重要的讲话,陈述了优秀传统文化的本质、重大意义与现实价值,从而为优秀传统文化的传承与弘扬、为建设中国特色
当下,各种各样的视觉图像、景观在科学技术的推动下大量地涌入人们的视野,影响着人们生活的方方面面,每个国家、地区因不同的文化、风俗有着自己独特的视觉文化风貌。银川作
斜交箱梁桥作为一种简单而又特殊的常用桥型,常被用于跨越交叉线路和互通式立交。从以往的地震灾害中可以看出,斜交箱梁桥在地震中受破坏的程度远高于具有规则几何形状的正交
本研究以C西藏民族中学为调查对象,访谈80位学生,通过正当方式获得35位学生的周记以及233位学生“我的祖国”作文文本,同时研究者参与随堂听课以及校内外活动。通过剖析这些
希伯来文明与埃及文明同属古老的东方文明,二者之间存在的继承关系已成为学界共识。然而,二者之间存在相似与共性并不能说明它们同属一种文明。希伯来文明虽然在很大程度上继
<正>军队档案资源是军事主体在军事实践中形成的具有保存价值的系统性档案集成。对军事档案的资源定位,较好地反映了其丰富性、实践性、动态性与功能价值特征,拓宽了军队档案
会议
通过测量A型地铁车辆受电弓与接触网动态受流特性参数,对弓网匹配关系进行研究,分析其在接触网区段的优劣性,以降低磨耗提高受流性能。
金融市场的快速发展和计算机的普及让交易数据呈现爆发式增长,这些数据中蕴含了无数有价值的信息。在此背景下,本文采用一种数据驱动的方式——非参数方法,来研究对上证指数