论文部分内容阅读
上海光源工程(Shanghai Synchrotron Radiation Facility,SSRF)是十五期间的国家重大科学工程,为提高工程管理水平,进一步完善信息化体系,PDM(Product Data Management)产品数据管理十分必要。
上海光源产品管理系统(SSRF-PDM)采用的是UGS公司的Teamcenter平台,但其检索功能不完善,检索结果是无序排列的。本文将通过在Teamcenter平台上嵌入Lucene,来完善系统的检索排序问题,并从以下3个方面阐述:
首先,本文就课题的背景、意义以及应用进行了简要介绍,包括上海光源,SSRF-PDM网络结构,系统配置以及组织结构创建,并重点研究了SSRF-PDM系统结构,本文的研究工作都是基于该系统进行。
第二大部分为理论部分,阐述了信息检索模型分类一布尔模型,VSM模型等;Lucene与原系统的检索算法与实现机制的比较,并着重阐述了中文分词技术:基于理解,基于统计,和字符串匹配等分词方法以及目前分词技术仍存在的问题。
最后为系统实现部分,主要包括两个大方面:改进的检索系统开发与测试。开发部分,包括建立索引(Indexing),针对不同格式文件(ppt,doc,.pdf,.xls)进行的文本转化与文本抽取,Lucene搜索(Searching)的开发,以及socket多线程通信-Client端与Server端;而测试部分,对改进前后的检索系统分别进行了英文,中文,数字以及复合型关键字检索测试,重点考察改进后系统对输出结果的排序功能验证,总结其检索效果以及展望。