“碎片化”在网站图书检索中的应用

来源 :出版参考 | 被引量 : 0次 | 上传用户:alicial
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  伴随着读者在互联网上以自定义主题(词组或短语)为条件,进行相关图书信息搜索的需求越来越多,传统的检索方式由于不适应自然语言的结构而明显落伍,用户希望网站的搜索引擎,能够提供基于内容的、更新更快且更加完备的相关书目信息资源,这就对我们出版社网站的信息架构——信息的组织方式和处理模式——提出了新的挑战。
  我们知道,读者自定义的搜索主题是用自然语言表述的,因而必然是由字和词按一定规则构成,当然还可能包含一些符号或标点。再观察我们的图书内容,也同样是由这些基本元素构成的。要想在两者之间建立起联系,并寻找对应关系,就应当从这些基本单元入手。由于汉语中的词比单个字具有更加完整的含义,所以我们把词作为基本的构成单元对待。将描述或构成图书内容的文本,拆分成具有独立含义的词,是寻找内容相关性的基本前提。而这一过程,就是我们所说的“碎片化”。那么,需要对哪些内容对象进行碎片化?碎片化过程依据什么进行?使用什么工具进行碎片化?到底碎片化到什么程度?碎片化是如何影响搜索引擎性能的?碎片化加工可以一劳永逸吗?本文分别来探讨这些问题。
  一、碎片化对象选择问题
  碎片化就是对文本进行切分,作为一种技术手段,其应用对象的选择一定要与功能目标相一致。所以,我们首先要选择能够最全面描述图书内容的文本,这就是章节目录,其次是内容简介。因为目录中有的词,正文中一定有,而且多是比较重要的词。这对于以内容检索为目的的相关性判断,就可以达到基本要求了。当然,如果有全文,可以使检索的范围更全面,以致不漏掉任何一个词,但同时也会使运算量成几何级数的递增,这一点与数字出版的要求不同,在线搜索功能对性能近乎苛求,所以我们未将正文列入切分范畴。还有,如果有样章,我们可不可以将其作为碎片化对象呢?这要具体分析一下是什么样的样章。一般科技类图书的第一章大多为概述,其后的各章将分别论述很具体的内容。那么,这类概述类的章节最适合作为碎片化对象,而其他表述具体内容的章节,会因其只突出部分特定内容,而造成与该内容相关性高的误判,所以不应做这种选择。还有一个要点值得注意,就是对于整个系统而言,选择对象的原则只能有一个。
  二、碎片化过程依据什么进行
  即对内容切分时应依据什么标准。要想让计算机像人一样,在充分理解自然语言的基础上,对文本进行合理切分,目前还有很长的路要走,这是计算语言学或人工智能研究的课题。但是,不完全理解并不代表不能切分,我们可以根据规则和经验,依据已有的资源,在掌握一定的自然语言规律的基础上,完成基本正确的切分。虽然这种切分不是基于对自然语言的充分理解,会有一些歧义产生,但应用实践的结果表明,对于本文探讨的以内容检索为目标的应用,这种切分方式是可以满足功能需求的,准确性是我们可接受的。我们在吸取前人经验的基础上,实践过两种切分方式,并分别应用于不同场合。
  基于字符匹配的切分方法。即按照一定的策略,将对象文本中的汉字组合(字符串)与一个充分大的词典中的词条进行对照匹配,如果能在词典中找到完全相同的字符串,就能识别出这个词。当然,上述的取词策略非常重要(以后还会谈到)。
  基于频率统计的切分方法。直观的看,字的稳定组合就形成了词,因此在上下文中,相邻两字同时出现(共现)的次数越多,就越有可能是词。所以字与字相邻共现的频率能够很好的反映它们成词的可信度。实践中,我们可以通过概率方法将这种相对频度计算出来,当共现概率超过一定数值时,我们就认为这些字构成了一个词。这里有一个前提需要大家注意,就是用于计算共现概率的样本文档(我们称之为语料库),必须与我们产品的实际内容相吻合,这一点很重要。
  上述两种方法为我们进行内容信息的碎片化处理,提供了可行的依据和标准。
  三、使用什么工具进行碎片化
  在碎片化的方法和参数确定下来以后,我们就可以进行切分操作了,这里离不开两个重要工具。
  词库。这是切分时依据的标准。汉语词汇是海量的,我们可以把它分为通用词和专用词两大类,因而就需要有通用词库和专用(业)词库。一般通用词库可以选择标准的或权威机构提供的,词汇量6万-10万个的基本可以够用。
  中文自动分词系统。这是一个计算机文本处理的软件工具。我们利用它在内容切分过程中实现如下功能:将文本中两个标点符号之间的汉字,按照我们定义的标准或规则,切分成若干个独立的词汇,并过滤掉其余无意义的单字,再将多次出现的词汇合并,同时记录下该词出现的频率。这样,原本连续的文档,就分解为若干独立的词汇及词频记录,形象地表述就是被“碎片化”了。当然,上述切分是有不同方式的,从左向右的逐字取词称为正向匹配,而从右向左的称为反向匹配,实践表明,反向匹配的正确率高于正向匹配,歧义出现的也比较少。还有,根据取词长度的不同,存在由最大匹配至最小匹配的多种组合方式。在最终决定采取何种切分策略时,应本着在运算速度可接受的前提下,尽可能提高分词质量的原则,不过这可能需要反复进行摸索与评测。
  四、碎片化的程度应如何把握
  搜索引擎的工作机制是将我们碎片化了的内容,与用户输入的描述搜索条件的语句进行对比匹配,因而,也必须对该搜索条件语句进行碎片化。由于这些条件都是以自然语言形式表述的,所以,要做到完全正确的切分难度很大。一旦切分错误,将带来后续检索和判断的一系列问题,无法保证搜素引擎的质量。鉴于目前的计算机技术尚不能做到对自然语言的完全正确理解,所以,我们只能采取充分匹配的方法,穷尽从最小匹配至最大匹配的所有可能,而不漏掉任何一个词。我们称之为“多粒度”方法。当然,这个原则也必须同样应用到我们对内容的碎片化上。之后的问题,就是如何确定最大匹配值,即最大词长,这与我们的内容有关。大多数情况下,到访出版社网站的客户,其对内容的需求多是与该社出版领域相吻合的,就是说,用户的搜索习惯与出版物的内容特点是有相关性的。所以结论是,碎片化的程度,还要兼顾本社产品的内容特点。   五、碎片化对搜索引擎性能的影响
  碎片化是搜索引擎进行检索和判断的基础和前提。经过基本的碎片化加工以后,我们可以从出现频率的角度,定量地考察各相关词汇(称为索引词)与内容的相关度,但实践表明,这还不够。由于我们并没有对正文的全部进行碎片化处理,就忽略了章节内容(长短不同)对图书整体相关性产生的影响。因此,我们需要挖掘一些能够定性描述图书核心内容的关键词,来补偿或校正这一影响。既然这些词起的是定性作用,那么我们就要赋予其较大的权重,相当于它们所代表的内容以高于平均值的频率出现在总体内容中。实践证明,这一措施对提高搜索引擎的质量做出了重要贡献。那么,到哪里去提取这些描述图书核心内容的关键词(也称为特征项)呢?我们把焦点瞄准了网站的产品数据库。经筛选,我们把CIP关键词、中图法分类、自定义分类、作译者名、书名、ISBN列为特征项,进行同样的切分,并赋予高权重。因而,我们所讲的碎片化是对所有内容(包括定量的和定性的两部分)而言的广义碎片化。总而言之,碎片化的方式、对象和标准对搜索引擎的性能有重大影响。
  六、碎片化是与内容生产永久相伴的
  碎片化加工不能一劳永逸,只要新书的生产不停顿,就不断会有新的内容,在经过碎片化处理后,被加入到索引数据库中,否则,搜索引擎就无法检索到它们。正是由于这些新书不断地出现在搜索引擎的结果列表中,网站的新书推荐有了新的途径。因为在新书上市的初期,读者在尚不了解新书信息的情况下,是不可能用书名去进行查询的。而当他们进行主题搜索时,无意中发现了许多新书信息,这势必引起读者的关注,使他们产生阅读的冲动。所以,碎片化处理已成为与新书发布同步的网站日常作业。同时,新书内容中不断涌现的新词,也是我们丰富和完善专业词库的主要来源。
  碎片化作为内容结构化处理的一种方式,是我们在出版社网站上的首次尝试,还仅仅是一些探索和实践。在其构思、设计、测试、实施和运维的过程中,我们总结出如下三点基本经验。
  专业词库建设,是最重要的基础工作,必须持之以恒的做好。
  词库是碎片化加工的必备工具,如果没有专业词库,就无法保证具有自身特点的内容被正确的切分,搜索引擎将显得很不专业,无法发挥出版社网站的资源优势。而专业词库的建设可以有依据词典生成、购买定型产品和基于语料库的统计识别三种途径。我们选择的是第三种,即构建自己的语料库用于词频统计及筛选,该方法不仅花费少、影响因素少,而且能够最大限度地利用本出版社的内容资源,也最切合自身内容特点,并且为以后的扩充和升级词库创造了条件。
  必须结合出版社自身特点,并不断总结经验,优化完善。
  任何新理论新技术,都不能拿来机械地直接使用,而必须考虑应用对象的特点。出版社有自己的出版领域、产品特色、内容特点、资源形式、数据结构、人才优势,这些都是确定方案及参数的依据和基础。关键在于如何与技术设计相结合,经不断总结经验、测试修改、优化完善,一定可以达到实用化水平。但这是一个逐步实现的过程。
  理论与实践、信息技术与出版业务必须紧密结合。
  信息技术飞速发展,我们应不断学习和掌握新的理论知识,同时又要敢于实践,才能将创新思想转化为创新实践,从而推动行业的信息化水平不断提高。同时,新技术的应用还要找准突破点,在出版业务有需求、信息技术有可能的结合点上下功夫,就能够取得成功。在开发过程中,既要有突破性的创新逻辑构思,又要兼顾业务需求在模型算法中的合理实现。
  网站信息的碎片化加工,是我们在内容结构化处理领域的一次尝试,其目标是为搜索引擎提供结构化的数据基础,是在探索和实现计算机理解自然语言——这一宏伟愿景过程中的一次实践探索。 (作者单位系科学出版社)
其他文献
本刊讯 8月27日,第21届北京国际图书博览会在北京顺义新国展举行。中国少年儿童新闻出版总社携约700种逾千册图书亮相,毗邻今年的主宾国土耳其的展区。  历经27年的不断创新和发展,北京国际图博会已成为国际出版业普遍认同并积极参与的国际图书综合交易平台,成为推动中国图书走出去的重要载体。在筹备本次国际图博会时,中少总社即以全球领先出版社参展大型国际书展的标准和形式,确定了参展目的——实现国际版权贸
期刊
本刊讯 9月18日,《中国人民抗日战争纪念馆藏日本强掳中国赴日劳工档案汇编》出版首发暨座谈会在抗战馆举行。此次活动由中国人民抗日战争纪念馆、民国时期文献保护工作办公室、中国抗日战争史学会、国家图书馆出版社共同举办。  《中国人民抗日战争纪念馆藏日本强掳中国赴日劳工档案汇编》是“十二五”国家重点图书出版规划项目,也是民国时期文献保护计划的重要成果。原档由日本政府及企业单方面编写,文中有意歪曲或掩盖日
期刊
少年儿童是祖国的花朵、民族的未来。我国14岁以下的少年儿童已接近4亿人,少儿的教育、培养在我国已经得到了普遍的重视。不管从智力上还是身体上,少儿时期都是人生发展的黄金时期,少年儿童的成长和发育与图书有着密不可分的关系。优秀少儿书籍不仅对少儿思想和行为培育有着直接的引导作用,关系到孩子的身心健康和全面发展,也是少儿出版社得以生存发展的“压箱底”。  当前,面临数字出版滚滚浪潮的猛烈冲击,传统少儿出版
期刊
本刊讯 8月29日,第六届“中国图书馆馆长与国际出版社高层对话论坛”在北京临空皇冠假日酒店举行。本次论坛是继2009年首届举办中国图书馆馆长与国际出版社高层对话论坛后的第六次大型学术活动,也是第21届北京国际图书博览会的重要专题学术活动之一。论坛主题是科学数据与共享。  本次论坛是在数字时代科学数据飞速发展和广泛应用的背景下召开的。大数据和泛媒体范畴下的科学数据有效存储、利用、分析和共享日益突破传
期刊
本刊讯 10月1日,麦兜动画大电影《麦兜我和我妈妈》亮相各大院线荧屏。同期,接力出版社也推出电影原著故事书《麦兜我和我妈妈》。  《麦兜我和我妈妈》是谢立文、麦家碧时隔两年之久推出的一部温情之作。接力出版社此次同期推出影视联动同名原著故事书《麦兜我和我妈妈》,是以相关大电影内容的创意来源为线索,收录了《神探波比麦》《大表伯的面档》《霉猪手》《我和我妈妈》等11篇故事。全书主线讲述了神探波比(即长大
期刊
本刊讯 9月3日,第十二届北京国际图书节主题活动——“传承国学经典,重塑文化大国”主题名家国际高峰论坛在北京大学英杰交流中心举行。国际知名学者楼宇烈、顾彬、单霁翔、艾恺、王守常、苏叔阳、钱逊、王小甫、刘传铭、叶茂然应邀出席,通过主旨演讲、高峰对话的形式对传承中国传统文化对当今中国社会文化发展的重要意义进行了深入浅出的探讨和分析。  北京大学哲学系、宗教学系教授、博士生导师,国际儒学联合会顾问楼宇烈
期刊
本刊讯 8月27日,中国出版集团公司及下属中国图书进出口(集团)总公司在第21届北京国际图书博览会上举办了“中国图书全球按需印刷启动仪式”。  新闻出版广电总局副局长阎晓宏,中宣部出版局副局长刘建生,财政部文资办主任王家新,国务院新闻办三局局长张雁彬,新闻出版广电总局印刷发行司司长王岩镔,中国出版集团公司总裁谭跃、党组书记王涛、副总裁刘伯根、副总裁潘凯雄等出席了启动仪式。来自各省新闻出版广电局的负
期刊
本刊讯 9月12日,“新常态·新视野:《全面深化改革研究书系》报告会”在北京举行。国家新闻出版广电总局副局长吴尚之、中国社会科学院副院长李培林、中国社会科学院秘书长高翔、中国社会科学院经济研究所研究员张卓元、国家出版基金规划办主任李潞、国务院国有重点大型企业监事会主席季晓南、中国社会科学院财经战略研究院院长高培勇、中国社会科学院文化研究中心研究员张晓明、中国社会科学院法学研究所副所长莫纪宏、社会科
期刊
本刊讯 8月30日,由北京出版集团北京出版社主办、龙顺成与同兴和公司协办的“畅安论坛”暨《奇士王世襄》首发式,在国际图书博览会上隆重举行。  在中国文化史上百年难得一见、但又不能不见的一代奇士王世襄,在世人惯常认知中就是一位“玩家”、一位在京城乃至中国都响当当的“大玩家”。座谈会上,谢辰生、耿宝昌、杨乃济、舒乙、罗杨等诸多文化学术界名流相聚一堂,追思与王世襄先生生前交往的逸闻趣事,并与现场观众进行
期刊
本刊讯 8月27日,由社科文献出版社与斯普林格出版集团(Springer)共同主办的“中国梦与中国发展道路研究丛书新书发布会”在北京举办。  改革开放以来,中国走上了有中国特色的社会主义道路,取得了令人瞩目的成就,在政治体制改革、经济发展、社会建设等方面积累了丰富的发展经验。社会科学文献出版社分析国内外出版市场形势,依托自身已有的国际出版系统和资源,策划了“中国梦与中国发展道路研究丛书‘走出去’暨
期刊