基于改进遗传神经网络的图书采购模型研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:sinbala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕针对目前图书采购过程中经验性、主观性强,统一性、科学性差等缺点,提出一种基于遗传神经网络用于图书采购的建模方法。该方法首先引入遗传因子改进传统遗传算法,并以此对神经网络的权值、阈值及其结构进行优化,然后通过优化后的神经网络挖掘图书的各种属性与是否被采购之间的潜在关系,从而实现图书是否被采购的预测分类。仿真实验表明该图书采购模型具有良好的预测性能及泛化能力,具有推广价值。
  〔关键词〕图书采购;遗传神经网络;改进遗传算法;优化设计
  〔中图分类号〕G253 〔文献标识码〕A 〔文章编号〕1008-0821(2009)09-0162-04
  
  Research on Book Purchase Model Based on Improved Genetic Neural NetworkHuang Xiaohua1 Miao Song1 Shi Huaji2 Yin Jijun2
  (1.Library,Jiangsu University,Jiangsu University,Zhenjiang 212013,China;
  2.School of Computer Science and Telecommunication Engineering,Jiangsu University,Zhenjiang 212013,China)
  〔Abstract〕Aiming the disadvantages in the process of book purchase,a book purchase model based on genetic algorithm neural network was proposed.Firstly,we improve the performance of genetic algorithm through influence factor and optimize weights,thresholds and structure of neural network simultaneity with the improved genetic algorithm.Then the optimized neural network was used to mine the potential relation between books’ attributes and whether will be bought.The simulation experiments show that the book purchase model has a good capability of forecasting and generalizing.
  〔Key words〕book purchase;genetic neural network;improved genetic algorithm;optimization
  
  图书采购是图书馆建设的重要环节,提高馆藏文献的实用价值、学术价值、针对性,以及满足率等是每一位采访人员的愿望,也是提高读者满意度的前提,而目前高校图书馆在采购图书时主要依靠采访人员对图书受众信息掌握程度和个人经验,缺少一套科学的、统一的采购模式及模型。如何根据各学科文献的需求状况,以及出版的质量、种量等因素,合理、有效、按比例的分配有限的购书经费,制定一套科学的采购策略,使图书馆各学科、各层次的图书收藏既能最大限度地保障教学和科研需要,又能确保馆藏特色和馆藏质量,保证图书馆的可持续性发展,已成为图书馆界当前共同关心和研究的大课题。
  近年来神经网络(Neural Network,简称NN)发展迅速,在经济、军事、工业生产和生物医学等领域得到广泛应用,并产生了深远的影响。神经网络具有很强的自适应、自组织、自学习的能力以及大规模并行运算的能力,这为图书采购提供了一条有效的思路和方法。但神经网络全局搜索能力差、收敛速度慢、容易陷入局部极小,单独使用神经网络效果不是很理想。
  由美国密歇根大学John H.Holland教授及其学生首次提出的遗传算法(Genetic Algorithm,简称GA)是一种高效的并行全局搜索算法[1]。该算法具有很好的鲁棒性,适用于并行处理;并具有良好的全局搜索性能,减少了陷入局部最优解的风险。遗传算法的这些优点恰好可以弥补传统神经网络的缺点。
  为此,本文提出一种遗传神经网络用于图书采购的建模方法,该方法首先对标准遗传算法进行改进,然后利用改进遗传算法作为前馈神经网络训练,调整前馈神经网络权阈值的方法,然后通过优化后的神经网络挖掘图书的各种属性与是否被采购之间的潜在关系,从而实现图书是否被采购的预测分类。
  
  1 改进遗传神经网络图书采购模型
  
  神经网络算法是一个数值计算过程,它们的输入输出都是数值向量,所以在基于改进遗传神经网络的图书采购模型中,神经网络不能直接和外界通信,必须经过逻辑到数字和数字到逻辑的两次转换。即在输入外界逻辑信息到遗传神经网络模型时,要把输入转换为网络的输入向量,网络的输出也必须转换成对应的样本后才能被外界识别和利用。图1是遗传神经网络图书采购模型简化示意图,它主要包括3个部分:输入转换器、遗传神经网络处理器、输出转换器。
  图1 改进遗传神经网络图书采购模型
   1.1 输入转换器
  输入转换器实现从输入样本到网络输入向量的转换并完成数据的标准化处理。实际计算时如果网络中各神经元的加权输入过大,则不利于网络权值的调整,因此在本模型的设计过程中对所有的样本采用了归一化的处理方法,从而将网络的输入数据限制在(0,1)之间。
  本文采用的归一化处理方法是平均值法,这种方法处理后的数据将是0.0~1.0之间的数字,即对于每个属性的所有数据最大值用1.0表示,最小值用0.0表示。中间值采用式(1)进行处理:
  xkk=xk-xminxmax-xmin(1)
  其中,xkk是归一化处理以后的数据,xk是该属性的原始值,xmax是该属性的最大取值,xmin是该属性的最小取值。
  2009年9月第29卷第9期现?代?情?报Journal of Modern InformationSep.,2009Vol.29 No.92009年9月第29卷第9期基于改进遗传神经网络的图书采购模型研究Sep.,2009Vol.29 No.91.2 遗传神经网络处理器
  1.2.1 神经网络的确定
  (1)网络层数的确定:现已证明,三层前馈神经网络具有令人满意的对连续映射的逼近能力[2],因此三层前馈神经网络即可满足图书采购的预测分类模型的要求,本文图书采购模型中神经网络部分拟采用三层的前馈神经网络。
  (2)输入层的确定:综合考虑图书的特征以及计算方便和系统实现的可行性,根据中图分类法我们采用图书的7个特征物理量,如下:图书内容关键词(GJC)、图书分类号(FLH)、图书出版社(CBS)、图书出版日期(CBRQ)、图书版本号(BBH)、图书价格(JG)、图书是否属于重点学科(ZDXK)。因此输入层神经元的个数定为7个。
  (3)输出层的确定:网络的输出就是对图书是否采购进行判断,因此输出层的节点数可设为1。
  (4)隐藏层的确定:结合隐层节点数的经验选择公式:nh=ni+no+l,其中ni为输入层节点数,no为输出层节点数,l为1~10之间的一个整数,又考虑到本文提出的改进遗传算法在优化神经网络的过程中可以动态地删除多余的隐层节点,因此l取最大值10,隐层节点数初始化为13。
  1.2.2 改进遗传算法优化前馈神经网络
  (1)影响因子
  在标准遗传算法中,每个个体用一条染色体来表示,染色体又由一基因序列组成,若令C表示染色体,g表示基因,则C=g1g2…gn,其中n为染色体中基因的个数。但上述表示方式并不能体现出每个基因gi对整条染色体的影响程度,进而在具体问题的求解过程中并不能体现出某一环节在整个问题求解过程中的重要程度。针对上述分析,我们提出了基因影响因子的概念。
  为了讨论方便,首先给出相关概念术语的定义和说明。
  定义1 基因特征值:表示基因特征的基因取值,用g表示,g∈R。
  定义2 基因影响因子:表示基因的特征值对整条染色体的影响程度,即某个基因对整条染色体起促进作用、抑制作用还是没有影响,用t表示,t∈R。
  定义3 基因有效值:表示基因的特征值中对染色体实际有影响的取值,用p表示,p=gt。
  基于上述基因影响因子(下文简称影响因子)的定义,则每个基因包括两部分信息:一是基因特征值g,另一是影响因子t。若用C表示染色体,则有C=(g1t1)(g2t2)…(gntn),其中n是组成染色体C的基因个数。
  当影响因子大于零时表示该基因对染色体起促进作用,正值越大表示促进作用越强;小于零时表示该基因对染色体起抑制作用,负值越小表示抑制作用越强;规定:如果影响因子的绝对值小于一个规定的阈值则该基因对染色体不起作用,此时基因可从染色体中删除,为了描述方便,我们用ti=0表示,即染色体中的第i个基因对染色体无意义。
  (2)带有影响因子GA优化FNN的过程
  1)编码
  遗传算法常用的编码方法有二进制编码和实数编码[3]。在优化设计前馈神经网络的过程中,我们采用的是实数编码方式。本文中的具体编码方法如表1所示,其中Wimn表示第i层的第m个节点与第i+1层的第n个节点之间的连接权,Timn表示第i层的第m个节点与第i+1层的第n个节点之间连接权的影响因子,Bim表示第i层的第m个节点的阈值,Tim表示第i层的第m个节点阈值的影响因子。表1 编码方法
  W011T011…WimnTimn…B11T11…BimTim…
  根据上文对影响因子的约定,在遗传进化过程中,当一个权值或阈值的影响因子小于一个规定的阈值(本文选用0.1)时,我们认为相应的权值或阈值对网络不起作用,此时可从神经网络中删除该权值或阈值,为了描述方便,我们采用Timn=0或Tim=0来表示,即第i层的第m个节点与第i+1层的第n个节点之间的连接权或第i层的第m个节点的阈值对神经网络没有影响。另外,对某个节点而言,与之相关的所有连接权数目为零时,从神经网络中删除该节点。
  2)初始化种群
  在确定好初始种群规模的大小后,按照上述的编码方式随机初始化种群。约定,影响因子在[-1,1]的范围内进行随机初始化。
  3)适应度函数选取
  适应度函数是遗传算法指导寻优搜索的关键,这里定义适应度函数为F=1E,其中E=12∑ni=1(y′(i)-y(i))2,y′(i)是网络对应第i个输入样本点输出,y(i)是希望输出,n是总的学习样本数。
  4)选择算子
  本文采用的是最优保存策略和轮盘赌策略相结合的混合型选择法,该方法与单一的选择策略相比,其优点是:①可保证迄今为止得到的最优个体不会被交叉、变异遗传算子所破坏,从而提高收敛速度;②当运算达到预先设定的迭代次数而停止运算时,系统得到的结果是运算过程中的最优解。
  5)交叉算子
  在本文中,进行交叉运算时,基因特征值和影响因子以相同的概率Pc进行成对交叉。交叉算子采用的是自适应线性交叉,具体步骤如下:设两个父代染色体为Xt、Yt,则交叉后所产生的两个子代染色体是:
  Xt+1=βYt+(1-β)Xt(2)
  Yt+1=βXt+(1-β)Yt(3)
  其中,β是一个由进化代数决定的变量,初值设为0.4,以后的每一代令βt+1=0.99βt,直到β<0.05[4]或达到迭代的最大步数。这种交叉算子的优点是在进化初期可以在较大的范围内产生新的个体,在进化后期不会过多地破坏好的个体。
  6)变异算子
  变异操作的目的就是为了改变遗传算法的局部搜索能力。本文采用的是均匀变异算子,基因特征值和影响因子以相同的变异率Pm成对进行变异。
  7)种群的进化
  当前群体中的最佳个体不满足求解要求并且没有达到最大迭代步数时,进化过程转到(3)进行下一次进化。
  1.3 输出转换器
  输出转换器将神经网络输出的数字信息转换为外界能够识别和利用的逻辑信息,在本模型中,输出转换器完成网络输出的模式转换。
  
  2 图书采购仿真实验及分析
  
  在Matlab7.0的环境下,采用图书馆2004-2005年图书采购数据对遗传神经网络图书采购模型进行了性能测试。根据上面的模型分析,神经网络初始化时各项结构参数定义如下:网络总共有3层,输入层有7个神经元,隐层有13个神经元,输出层有1个神经元。
  实验中关键词采用了图书采访部提供的5 000个,不在5 000之内的用“其它”表示,分别用0~5 000来表示;根据中图分类法[5],图书可以分为5个大类,22个子类,224个小类,采用1~224分别代表224个小类;现有的图书出版社总共有500多个,采用0~500代表499个出版社和1个“其它”,不在499个出版社之内的用“其它”表示。以10万条图书采购数据作为样本,其中80%作为训练样本,20%作为测试样本。经过初步整理后形成的样本数据形式如表2所示:
  表2 样本数据示例
  IDGJC(X1)FLH(X2)CBS(X3)CBRQ(X4)BBH(X5)JG(X6)ZDXK(X7)CG176(机械)190(TH)6(机械出版社)20042481122031(军事)49(E0)189(解放军出版社)2005122.80033526(绘画)97(J2)396(天津人民美术出版社)200413200
  其中ID为样本数据的编号,X1-X7为图书的属性,CG为是否采购的判断。对表2所示的样本数据采用式(1)进行归一化处理后即为网络的输入样本数据。
  用本文提出的改进遗传算法对上述网络模型进行学习时,初始种群大小为100,Pc=0.8,Pm=0.05,基因特征值gi在[-5,5]内随机初始化,影响因子ti在[-1,1]的范围内随机初始化,当某个基因发生变异时,基因特征值gi加上[-1,1]内的一个随机数,影响因子ti加上[-0.2,0.2]中的一个随机数。经过改进遗传算法训练的神经网络的最终网络结构,如图2所示。
  从图2可以看出,隐层节点数由初始化时的13个变为10个,连接权的数目也有所减少,这充分体现了带有影响因子的改进遗传算法在神经网络结构优化方面的优越性。经过专家鉴定,遗传神经网络模型对于图书是否进行采购的预测具有95%以上的正确性。作为对比,本文也采用标准BP算法对上述网络结构和样本进行了训练学习,表3列出了部分实验结果,从表中可以看出,同BP网络相比,遗传神经网络具有更高的预测分类精度。
  图2 遗传神经网络模型训练后的网络结构
  表3 遗传神经网络与BP网络对图书采购预测分类的比较
  IDX1X2X3X4X5X6X7CG
  (期望值)BP网络
  预测值遗传神经
  网络预测值17619062004248110.86930.950622031491892005122.8000.10240.002333526973962004132000.09280.000445861622632005143.5110.90350.97275968563452004126010.86370.960461698734062003118000.19400.00267425319612005258110.95960.9806823511532005119010.81020.9563980213262005232010.87120.96981028531373092003124000.10020.0008
  
  3 结束语
  
  在研究了图书采购的现状及其特点,分析了神经网络与遗传算法结合的可行性之后,对标准遗传算法进行了改进,提高了其效率和性能,然后利用改进的遗传算法对神经网络的权阈值进行学习并确定了最佳的网络结构。在此理论基础上建立了图书采购遗传神经网络模型,图书采购仿真试验表明:该模型具有良好的预测性能及其泛化能力,具有一定的推广价值。
  
  参考文献
  [1]Holland,J.H.Adaptation in natural and artificial systems:An introductory analysis with applications to biology,control,and artificial intelligence[M].1st edition,Ann Arbor,MI:The University of Michigan Press,1975;2nd edition,Cambridge,MA:MIT Press,1992.
  [2]蒋宗礼.人工神经网络导论[M].北京:高等教育出版社,2001,8.
  [3]李敏强,寇纪凇,林丹,等.遗传算法的基本理论与应用[M].北京:科学出版社,2003,3.
  [4]Gary G Yen,LU Hai-ming.Hierarchical genetic algorithm based neural network design[C].Proc 1st IEEE Symp Combination of Evolutionary Computation and Neural Network,2000:168-175.
  [5]中图分类法简表[EB/OL].http:∥lib.ujs.edu.cn/ggxx/ztf.htm
  [6]S.H.Ling,H.K.Lam,F.H.F.Leung.A variable-parameter neural network trained by improved genetic algorithm and its application[J].Proceedings of international Joint Conference on Neural Network,Montreal,Canada,July 31-August 4,2005:1343-1348.
  [7]周文献,孙立军.基于遗传神经网络的水泥路面使用性能预测[J].计算机应用,2005,12(25):280-281.
其他文献
唐朝作为中国最强盛的时代之一,唐律可谓是集前朝法律之大成,其影响也是悠远绵长。而在礼法结合的唐律规制下,唐朝最引人注目的便是诸多公主的再嫁,甚至三嫁。许多研究者将这
据国家统计局发布的最新数据,2010年我国共生产化肥6619.8万t(折纯,下同),同比增长2.52%,再创历史新高。
本文重点论述了网络时代对西文联机编目的挑战.以及对我国覆国外图书馆联机编目的现状、联机编目发展方向和应对策略做了阐述。
结合英坪矿露天开采的生产实际,通过调节爆破参数、单孔最大装药量、中心线及微差间隔,运用正交优化试验设计试验,对所测震动结果进行均值计算和极差分析,寻找影响爆破震动的主次
针对瓮福磷矿磨坊矿段缓倾斜中厚矿体开采后所产生较大沉降的问题,提出采用点柱式充填开采的方法,并对其进行数值模拟验证。通过对充填与未充填两种情况的数值模拟结果可以发现
我国钾盐(肥)自给率已经达到50%以上,但仍有近一半的需求量要靠进口来补充。实施“走出去”战略是我国钾盐行业实现市场供给三分天下的重要措施。要构建起三足鼎立的市场供给格局
文章通过RSS技术的产生背景与发展过程,阐述了目前RSS技术在服务领域,特别是信息服务领域中的应用前景,并对图书馆利用RSS技术的个性化信息服务提出了解决方法。
首先介绍了情报学的发展过程,简要叙述了知识管理、信息资源管理的基本概念,论述了知识管理、信息资源管理、情报学的相互关系。
以白云石为原料,经煅烧、消化、碳化、热解、烘干制备出CaO质量分数小于0.1%的碱式碳酸镁,煅烧后制备出MgO质量分数高于99%的高纯氧化镁。研究了白云石煅烧温度、消化条件、
澳大利亚矿业巨头必和必拓公司(BHP)日前宣布,其旗下坐落在加拿大萨斯喀彻温省一处名为Jansen的新钾矿将不再通过北美钾肥销售联盟(Canpotex)销售钾肥,而是自行销售。这意味着国际