人物专题数据库的构建及其数据挖掘探索

来源 :现代情报 | 被引量 : 0次 | 上传用户:lionados
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]尝试在构建中国女性人物专题数据库的实践过程中运用数据仓库技术和数据挖掘技术,帮助学术研究者对这些人物在社会发展厦其自身发展的某个具体层面中所呈现的典型现象进行分析。力图改善以往专题数据库建设在这方面局限性。为研究学者搭建更加深层次信息分析的研究平台。
  [关键词]中国女性人物;专题数据库;数据挖掘研究
  DOl:10.3969/i.issn.1008-0821.2010.06.013
  [中图分类号]G258.5
  [文献标识码]B
  [文章编号]1008—0821(2010)06—0049—05
  
  1 国内外有关人物专题数据库开发的现状及研究的发展前景
  
  1.1 国内外相关研究状况
  国内外对于综合研究和记录中国女性人物研究方面的专题数据库有:Early modern women database、明清妇女著作数据库、网上政坛女性数据库、中国高校女性学学科教学科研网络与数据库建设及中国妇女民间艺术研究与展示等,通过科技文献查新检索,均未见正式相关文献成果发表。经过对上述这些数据库的介绍和内容分析,发现这些数据库的内容大都是关于女性生活需要及生活环境等方面,与本课题相似或相同的专题数库尚未见文献报道。在专题数据库建设方面,与人物数据库相类似的专题数据库有:暨南大学的“华人华侨人物专题数据库”与本课题“中国女性人物专题数据库”有某些相关之处。但这些数据库都为传统的信息检索用途,没有涉及对专题数据库进行深层次的知识发现,即采用数据挖掘技术对数据建立分析模型,进行关联分析、聚类分析等,得出潜在有用知识。
  
  1.2 人物数据库构建中进行数据挖掘研究的意义
  本研究中的人物数据库构建采用的数据挖掘技术是目前国内外比较成熟的信息分析技术,目前在购物篮数据(basketdata)分析、保险业务、金融风险预测、产品产量和质量分析、等许多领域得到了成功的应用,而在相关女性人物专题数据库的数据分析应用中未见有文献报道。因此本数据库具有一定的先进性和创新性。其内容还有远大的发展前景,尤其对于女性及性别研究具有较大的实用价值和深远的压史意义。
  
  2 中国女性人物专题数据库的资源表现形式的搭建
  
  (1)本数据库内容组织通过两条主线来表现:
  ①由中国古代、近代、现代3个不同时代的女性人物数据库组成,各个不同时代的女性人物数据库能从政治、经济、科技、文化、教育、艺术、体育、法律(维权)等
  ②开发了动态电子地图的直观搜索方式,读者能很方便的点击各个不同的地域来查找、浏览各领域的女性人物数据。
  
  
  (2)检索方式:首页设计为能通过年代、电子地图、以及检索等多种方式来方便读者查找进入数据库。电子地图可以直接点击地区进入该地区人物目录。在数据列表显示页面,能提供简单的目录树浏览的方式和专业的检索功能,其中检索功能能够实现简单检索、全字段检索、全文检索、跨库检索、二次检索、关联检索等多种专业的检索不同活动领域展示并查找这3个年代的知名女性人物的相关数据(见图1)。方式。
  (3)本数据库还专门为每一个女性人物形成一个单独的个人专题数据库模板,通过数据库挖掘和数据库关联技术能够从每个单独的数据库中把个人的生平概览;个人成就与作品;后人的评论与研究;相关的图片资源;相关的人物多媒体资源;相关网络资讯等全部抽取出来,形成个人的专题数据库。各类型资源元数据元素与结构体系都有各自的方案,元数据体系结构图见图2。中国女性人物网络资讯库与人物数据库元数据方案如表1和表2。
  (4)本数据库根据馆藏资源以及现有能收集的数据,根据资源的类型划分为如下几个子库,各子库通过元数据体系结构进行关联。
  ①女性人物书目数据库:收集本馆馆藏及国内外有关中国女性方面的评论,中国女性的著作,中国女性方面的研究等图书书目信息。
  ②女性人物全文数据库:收集具有全文对象的女性人物相关的数据(如:期刊论文,会议论文,学位论文,馆藏珍贵的扫描文献资源等)
  ③女性人物专题资源数据库:收集中国女性的个人基本资料,如:姓名,国籍,生卒年,照片,个人简介等。
  ④网络资源全文数据库:收集大量网络上关于中国女性人物的评论,研究,相关活动等资料。
  ⑤女性人物多媒体数据库:收集中国女性的相关作品、比赛录像、访谈、访问及活动录像等大量的音视频资料。
  ⑥女性人物图片数据库:收集中国女性个人的活动照片、写真、珍贵的书画作品等各方面的图片资料。
  
  3 人物专题数据库的知识发现与数据挖掘思考与研究
  
  女性人物专题数据库包括关系数数据库、文本和多媒体数据以及网络资源等数据库。采用数据挖掘技术对中国女性人物数据进行建模并研究分析,开发分析模型,分析和预测具体问题的发生原因与预测发展方向。数据挖掘是利用一种或多种计算机学习技术,从数据仓库的数据中自动分析并提取知识。在已有的大量数据中寻找有用的维度层次数据和事实数据进行分析的为决策支持的过程,它从理论和技术上继承了知识发现领域的成果,同时又借鉴了许多其他领域的理论和算法。因此,基于数据挖掘的人物专题库把人们对人物数据的应用从低层次的简单查询,提升到从数据中挖掘知识,从而提供人物专题研究决策参考。
  
  3.1 人物专题数据库具体数据挖掘的数据源
  (1)关系数据库的查询语言主要有SQL,SQL,查询被转换成一系列操作。
  (2)女性人物的文本数据库,文本数据库所记载的内容均为文字,这些文字并不是简单的关键词,文本数据库多为非结构化的,也有些是半结构化的(如,题录数据加全文、超文本HTML、PDF格式文本等等)。文本的主题特征提取;文本分类;文本聚类;文本自动摘要等。
  (3)女性人物的时序数据库,用于存放与时间相关的数据,用来反映随时间变化的即时数据或不同时间发生的不同事件。
  (4)女性人物的地序数据库与空间数据库,指存储地理或者空间信息的数据库,其中数据可能以光栅格式提供,也可能以矢量图形(地图等)数据,例如有关的地理信息数据库等。用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现,空间知识库的构造,空间数据库的重组和空问数据查询优化。
  (5)女性人物的多媒体数据库,存放图像、声音、视频信息的数据库。多媒体数据挖掘包括:图像数据挖掘,音频数据挖掘,视频数据挖掘等处理,这部分相对较难。
  
  3.2 女性人物专题数据挖掘与数据仓库建立过程
  3.2.1 数据仓库构建
  与传统面向操作型业务的数据库不同,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库要用到ElL技术,ETL(Extraction—Transformation—Loading)是数抽取转换装 载系统,一般简称“数据抽取系统”。ETL包括3个方面:首先是抽取,将数据从各种原始的业务系统中提取出来,这是所有工作的前提;其次是转换,按照预先设汁好的规则对抽取的数据进行转换,使得本来异构的数据格式能够统一起来;最后就是加载,将转换好的数据按计划增量或者全部导人到数据仓库中。
  (1)数据仓库的建立与用户的需求密切相关
  ETL技术是指从源系统中提取数据,转换数据为一个标准的格式,并且加载数据到目标数据存储区,即数据仓库。维、维的层次和度量是数据仓库多维模型的主要元素。维是人们观察数据的特定角度,如果对数据进行挖掘而不去关心用户或研究者的研究方向与需求活动,这部分的工作是很难展开的,因此在这方面需要对用户进行调研,通过与女性研究专家访谈,我们了解到女性研究通常比较关心女性不同年龄在不同时间和不同地区的就业或教育变化情况,那么时间就是一个维,地区也是一个维。每个维都包含有一定的层次。维的层次是指观察数据的特定角度的一个描述方面,比如时间可以从年份、季度、月份、天等不同层次来描述。度量描述了需要分析的数值,例如收人或者年龄。OLAP按多维模型组织数据,以便进行多角度、多层次的分析,并发现趋势。ETL在数据仓库构建过程中涉及到大量的业务逻辑和异构环境,因此在女性人物专题库的数据仓库建设项目中ETL部分占70%~80%的精力。已有的有用元数据集和数据库也需要通过ed技术进行对数据进行抽取。清洗和加载进数据仓库(见图3)。
  (2)建立数据仓库需要注意以下3个方面:
  ①通过对女性人物数据及其存储格式进行分析,实现专题数据仓库的设计,包括数据仓库的概念设计、逻辑设计和物理设计。
  ②针对人物数据库内部的数据源和设计完成的数据仓库,实现女性人物相关信息数据仓库的ElL系统的设计,对系统的整体框架和系统中各模块的功能及实现进行详细的分析。
  ③女性人物数据源是一些关系型数据库、文本文件、XML文档或音频等类型的文件,一个完善的ETL系统应该支持多数据源的抽取、转换和加载。目前由于技术难度,我们在研究中只取了部分类型进行抽取。此外,数据增量加载是未来工作的另一重点,可以利用时间戳和Oracle的数据更新捕获机制(cDC)来进一步研究数据的增量加载。
  (3)建立分析模型与测试、验证分析模型
  首先将选择和应用多种不同的建模技术(数据挖掘技术),校准它们的参数,使其达到最优值。由于数据挖掘技术对数据格式要求不同,因此,在建模过程中经常要返回到数据准备阶段,多次往复进行,其次在建模过程中要多次测试和验证所建立模型的质量和有效性,最后在准备好的数据集上运行建模工具,以建立一个或多个模型,同时注意对建模工具参数的设定,记录和描述所生成的模型。
  用户在需求时有不同的研究方向,数据仓库在原数据库的基础上,抽取一些有用的数值数据,例如,文献的下载量、受教育程度、年龄、民族等等,构建数据仓库,数据仓库建好之后的建模分析,例如相拟统计、地区统计等分析。
  (4)实施和应用
  实施和应用阶段是指利用数据挖掘技术所建立模型在实际项目中的应用,包括知识发现,个性化用户服务、决策支持等等。这个阶段是在实践中与用户的研究细节不断沟通来完善和修正整个项目。
  
  4 结束语
  
  本数据库最初的数据加工与网页发布都采用DIPS系统来进行,具体过程不再表述,力图实现在传统的人物专题库构建过程中,也能运用数据仓库技术和数据挖掘技术,探索帮助学术研究者对人物在社会发展和自身发现的某个具体层面中所呈现的典型现象进行分析的一种个性化服务模型。以改善以往专题数据库建设在这方面局限性,为研究学者搭建更加深层次信息分析的研究平台。
  
其他文献
〔摘要〕选取中国的阿里巴巴电商网站和美国的Amazon电商网站进行比较,详细地比较其收集信息的类型、用户权利说明、共享信息的对象与Cookies使用等隐私政策,对其隐私政策做较全面比较,分析各自特点,发现其中存在的问题,进而提出电子商务网站隐私政策建设意见,找出我国电子商务网站与美国电子商务网站相比在用户隐私保护方面的不足,以期为国内电子商务网站制定保护用户隐私政策提供借鉴,最后指出我国电子商务网
[摘要]网络衍生舆情形成的根本原因是网络舆情信息和主体异化问题。根据信息异化理论,通过分析网络舆情演化的萌芽期、扩散期与消退期3个阶段,归纳了网络衍生舆情的一般特征和演化规律,指出网络谣言是信息异化作用下一种典型的综合网络舆情,并以网络谣言治理为例,深入剖析了网络谣言的基本要素与演化机理,进而,提出了治理网络谣言的“主体——社会——技术”的“三雏一体”策略,以期为我国综合网络舆情治理体系建设提供有
随着四季的变化,人们的饮食也要相应变化,谓之“顺时而变”。  春季饮食原则  习惯了冬天大补的人们,到了春天可要注意管住嘴。  春天不可大补,而应该温和地补,以升补为主,来顺应春天的阳气升发之力。具有升补作用的食物有:豆芽、春笋、韭菜、香椿、葱、姜、蒜等。到了春天的最后一个月,阳气已经升发起来,可以减少升温食物,此时正是各种绿叶蔬菜上市的时候,应多吃蔬菜。  以中医五行来说,春天要注意养肝。五种味
《一篇读罢头飞雪,重读马克思》  作者用平实、生动甚至略带犀利的笔触,援引马克思著作中的精彩部分,充分解读了马克思对当今世界社会发展趋势以及经济危机的成功预测和判断。针对马克思的三部作品《资本论》《法兰西内战》和《路易·波拿巴的雾月十八日》,作者引导读者沿着马克思的足迹解读资本主义、社会主义、货币、债务、道德、信用等,并反思马克思对上述问题的剖析有哪些现实指导意义,从而鞭策现代人要想看懂并解决政治
英语很烂?GPA为零?都不重要,成功取决于你有一颗想要留学的心。  从大三开始有了留学的念头,因为自己学习医学相关专业,前一年我心里最理想的目的地就是日本。但是真正踏足留学这条路却完全转变了念头。我的专业不是临床,虽然日本医学发达,但是仔细思考了一下预防相关领域,北美才是更适合的方向。在大三这一年我并没有开始准备托福考试,而是参加了外教课,一年下来其实学到的知识不多,但是开阔了眼界和敢于张口的勇气
她与丈夫拥有自己的公司,生活过得有滋有味,却不幸先后身患癌症。夫妻俩手术后回到老家休养,面对贫穷的山村和乡亲们一双双祈盼致富的眼睛,她用自己的羸弱之躯让小村发生了今非昔比的巨变。她就是“全国最美‘村官’”、山西省晋中市昔阳县井沟村村委会主任马怀兰。  老板夫妇回村休养却心酸  昔阳县井沟村是马怀兰丈夫周银柱的故乡。但在2002年之前,周银柱少小读书离家之后,和这个小山村的交集甚少,尤其是父母去世后
1955年共和国首次授衔时,装甲兵首任司令员许光达专门给毛泽东主席写了一份“降衔申请”,请求将自己的大将军衔降为上将军衔,被毛泽东誉为“这是一面明镜,共产党人自身革命的明镜”。  不要大将军衔  1908年11月19日,许光达出生于湖南省长沙县。1925年,17岁的许光达在长沙师范学校加入中国共产党,第二年考入黄埔军校,1927年参加南昌起义。从1941年起,许光达历任军委参谋部部长、八路军第12
〔摘 要〕在当前“互联网 ”背景下,应用大数据挖掘技术提高知识服务的智能化、个性化、自动化水平,实现智慧性的知识服务是图书馆服务的发展趋势。首先提出基于大数据挖掘的图书馆智慧服务模型,通过用户群挖掘、用户兴趣挖掘、学科和领域知识挖掘、业务关联挖掘来沟通大数据应用和智慧服务需求;然后提出基于Hadoop平台的图书馆大数据挖掘技术支撑体系,为智慧服务应用落地提供技术方案;最后探讨大数据挖掘支持下的场景
〔摘 要〕简要的介绍Dspace系统,详细描述Dspace系统具体的安装过程及在安装过程中碰到的相关问题,对其 原因进行分析,提出了解决的方法。  〔关键词〕开源软件;Dspace;开放获取  〔中图分类号〕G202 〔文献标识码〕C 〔文章编号〕1008-0821(2009)09-0059-03    The System Installation of Dspace and Analysis
每个人都渴望拥有完美生活,那么究竟什么样的生活才算完美呢?  2005年4月11日,在美国加州克莱蒙克大学,95歲高龄的现代管理学之父彼得·德鲁克在接受访谈时说:“我所认识的一些人,虽然说算不上幸福,但绝对是满意现有生活的,因为他们大多数都过着完美的生活;相反,多见于政界的一些人,因只重政治不问他事,最终成为郁郁寡欢之人。一个人的事业一旦达到顶峰,就无路可攀了,而永居顶峰又确实是不可能的。所以,完