近五年我国中文分词研究论文计量分析

来源 :现代情报 | 被引量 : 0次 | 上传用户:wangfei871010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕本文依据文献计量学的原理与方法,对2004-2008年5年发表的有关中文分词研究领域的论文进行了分析研究。通过对中文分词研究作者分析和文献分布分析,对我国在中文分词领域的研究现状进行了探讨。
  〔关键词〕中文分词;文献计量;作者分析
  〔中图分类号〕G254 〔文献标识码〕A 〔文章编号〕1008-0821(2009)11-0161-02
  Bibliometric Study on Chinese Word Segmentation
  Papers of China in the Past Five YearsFu Yingying Sun Jiqing
  (Library,Institute of Science and Technology,Shanghai 200237,China)
  〔Abstract〕By using the principles and methods of bibliometrics,this paper analyzed the Chinese Word Segmentation papers published from 2003 to 2007 and discussed the current research situation of Chinese Word Segmentation in China through the author analysis and the distribution of literature on Chinese word segmentation.
  〔Keywords〕chinese word segmentation;bibliometrics;author analysis
  中文分词是中文信息处理系统中的一个核心内容,长期以来为了达到中文信息的智能化处理,对中文分词作了多领域的研究,但是信息检索系统对分词的速度和准确率仍然不尽如人意。期间不同领域的学者对于中文分词技术作了深入的研究,为方便相关研究者了解近五年的研究现状,本文通过中文科技期刊数据库,检索了2004-2008年5年发表的论文,并对其作了计量研究分析,以供参考。
  
  1 中文分词研究作者分析
  
  2004-2008年,我国中文分词研究领域共发表论文246篇,其中单一作者论文为46篇,占总论文总量的18.70%;二人合作论文数为79篇,占了论文总数的32.11%;总的合作者率为81.30%,这表明该领域的研究著者以合作研究为主,合作研究较多,可以促进中文分词研究向纵深层次不断发展。对2004-2008年中文分词领域研究的论文作者所在单位按第一作者进行统计分析,246篇文献共来自152个单位,平均每单位1.6篇。作者单位类型分布见表1。
  表2列出发文量大于3篇的单位,共有20个;而发文量为2篇的单位有21个,1篇的有111个;其中发文量最高的清华大学5年发表相关论文只有11篇,科研院所中则以中国科学院最多,只有8篇。同时也可以看出,我国该领域研究大都集中在高等院校,占了论文总数的90.56%,这充分说明,我国中文分词研究领域发展尚处于理论研究阶段,企业参与很少;而且5年单位平均发文才1.6篇,研究的集中度很低,缺乏长期连续的深入研究与高水平的应用研究。显示了国内的论文仍处于低水平的重复研究阶段。
  对核心作者的分析同样能反映这一现象。所谓活跃作者群是指在某一刊物上发表论文较多、影响较大的作者集合,也称核心作者。根据文献计量学的普赖斯理论。即杰出作者中发表论文数量最少的作者所发表的论文数M等于发表论文数最多的作者所发表论文数Nmax的平方根的0.749倍:
  M=0.749(Nmax)1/2
  
  对2004-2008中文分词领域研究的论文,按照研究内容进行分析,按发文量主要有八大研究主题,即:分词算法研究、分词系统开发研究、检索应用研究、搜索引擎应用研究、分词歧义切分研究、综述性论文、未登录词研究、分词规则研究,如表6所示。其中内容涉及算法研究的论文数量最多,占了80篇,说明目前对分词效率的研究还是在算法方面。分词的应用研究已成为研究重点,系统开发、检索系统应用、搜索引擎应用研究,相加达到142篇,达58%,这说明中文分词研究已从理论研究阶段进入实际应用阶段。中文分词研究的难点,歧义切分与未登录词、仍然得到中文分词研究者的重视。
  
  
  
  3 结 语
  
  经过上述分析,可以看出,随着中文信息计算机智能化处理的发展和人们对信息检索效率的要求的提高,为中文分词研究提供了广阔的应用前景与研究空间。相关领域的期刊也为中文分词研究者提供了完善的学术交流阵地,相信中文分词研究的传统重点、难点问题,在研究者的不断努力下将逐步有所突破。
  
  参考文献
  [1]刘颖,唐永林,曾媛.我国专利地图研究的文献计量分析[J].现代情报,2008,(10):153-157.
  [2]吕海萍,乔建生.从对《计量学报》论文作者的分析看我国计量学科队伍的现状[J].计量学报,1998,19(3):234-240.
  [3]刘芬.2007年《情报科学》载文、作者与引文统计分析[J].情报科学,2008,26(11):1699-1702.
其他文献
随着我国氟化工行业的快速发展,天然萤石资源愈来愈珍贵,价格也在不断攀升。综合利用磷氟资源是磷化工行业治理环境污染的重要途径,也是发展氟化工的必由之路。我国每年在磷矿开
<正> 讲习班于1986年9月1日至10月3日在意大利的里雅斯特市举办。中国科学院地球物理研究所吴华参加了学习。讲习期间,先后有9名教授参加授课,讲了ld个专题,涉及了地震学的基
采矿方案的选择是一个多目标多因素的决策过程,而评判过程中定量指标和定性指标并存,针对某些指标带有模糊性和随机性等特点,采用模糊数学综合评价理论优选采矿方案的原理和
高校毕业生个人文献信息资源的再利用,是目前高校图书馆工作值得探讨重视的问题。笔者对本校研究生读者问卷调查后,遵循图书馆以人为本的服务理念,分析了毕业生图书捐赠心理。针
本文从数据库资源、书目信息、检索方式等三方面对Worldcat数据库、国家图书馆的外文文献数据库、CALIS的西文数据库进行比较,探讨如何利用此三大西文书目数据库,快速且高质
本文以浮选后的细颗粒(55-60μm)马边磷矿为代表性矿样,通过正交实验设计及极差分析方法探讨反应温度、停留时间、液相SO3质量浓度、料浆液固比等因素对细粒磷矿分解及磷石膏结
本文经过社会调查对比分析,针对目前大学生读者的阅读行为特征进行了探究;结合高校图书馆服务管理现状。提出了创新服务举措的几点建议。
《侵权责任法》第54条和第58条在立法之初就充满争议,第54条确立了医疗侵权采用过错责任原则,这完全改变了之前处理医疗侵权案件所采用的过错推定原则。面对《侵权责任法》第
网络融合的大趋势促使图书馆服务不断创新,基于可视通信的基础业务,扩展到多媒体视讯服务、消息管理、远程监控、泛业务应用等图书馆创新服务,分析其技术与优势,规划其泛应用
作者结合初中英语教材的特点,就信息技术与英语课堂教学的整合进行了初步探讨并结合课堂教学实践,分析了信息技术在初中英语课堂中的作用。文章中还就信息技术与初中英语课堂