论文部分内容阅读
1、数字档案馆传统检索方式存在的问题
传统的数字档案馆检索都是基于关键词匹配的全文检索(或其他关键字检索,如标题检索),只要文章中存在用户输人的词,该文章即被命中。这种传统的检索方式局限于表面形式,在普通的网络搜索引擎中尚可满足用户需求,但在数字档案馆这种对于查全率查准率要求极高的环境下却无法胜任。
首先,由于普通用户的专业知识不强,经常对检索词表达不清。用户在使用检索词时往往无法表达一个确切概念,如对于“计算机”这个词,可能有多种表达方式,由于这些词汇在形式上的差异,导致用户检索往往无法命中。
其次,用户在检索一个概念时可能还希望得到与该概念有关的其他概念。这时候就需要搜索引擎对用户提供的概念进行扩检,如用户输入“TCP/IP”时,可能还希望得到“网络协议”方面的信息。
第三,档案记录具备规范化的主题词。在数字档案馆中,所有的数字档案均有规范化的主题词,用户在检索时如果能直接命中这些主题词,那么查准率将会大幅提高,但由于普通用户对档案主题词并不熟悉,所以在提供检索服务时最好能够将用户提供的检索词转换为标准的主题词并进行相关概念的扩充检索。
2、基于主题词表的数字档案馆概念搜索引擎设计和实现
针对以上提到问题,我们设计了一套基于词素概念检索的数字档案馆馆内搜索引擎,该系统基于主题词表进行概念的关联,对用户提出的检索要求先进行规范化转换,而后再根据主题词进行扩检。
2.1 基于主题词表的语义关系及其应用需求
主题词是经过规范化处理的,能显示主题词之间语义关系的。有标引和检索意义的词或词组。所有有序化叙词之和就构成了主题词表。主题词表中的语义关系包括等同关系、属分关系、相关关系。词的等同关系是指一组词或词组在概念上完全相同或意义接近:属分关系指概念内涵相同、外延范围大小不同的词之间的关系:族首词则是一种特殊的属分关系,其外延范围最大:相关关系是指概念内涵之间语义联系的词间关系。
利用主题词表的用代关系规范用户提问的主题词、用属分关系实现扩检,因此主题词表在设计时应该对Y、D、F项数据访问提供方便的人口。建立主题词表以及范畴索引、词族索引这将极大地方便计算机以词表控制的自动处理技术。当然根据具体应用不同需求,词表结构还要做一些细微调整,继续完善后可以接入应用系统,本系统就是根据主题词表之间的语义关系来进行概念之间的关联的。
2.2 系统工作原理
用户首先通过检索界面输入关键词,业务层通过主题词表对关键词进行查询分析,并转换为规范化的主题词,而后再根据主题词表当中上位词、下位词和参考词字段在数据表中进行扩展检索,输出后供用户选择相应的查询结果。例如:用户输入“电脑”或者“PC”一词,查询分析器先在主题词表中查找该关键词,而后将该关键词转换为标准主题词“微型计算机”,再根据其下位词“电子计算机”、上位词“计算机”、参考词“微机”来进行扩展检索。得到四个结果集,用户可以选择输出。
整个流程主要是通过主题词表进行概念关联,下表是主题词表的数据结构:
另外,在实际使用过程中,由于各种新词汇的不断出现,经常导致用户输入的词汇无法在词表中检索到,这就需要一个及时的用户反馈机制。针对这种现象,我们又设计了一个自由词表,专门来存储用户输入的新词汇,并进行词频统计,最后专家通过系统将这些新词加入到主题词表当中或者直接上升为主题词,保证了系统的实时更新。表2即为自由词表的数据结构。
2.3 系统特点
2.3.1 基于主题词表的概念关联模式。该系统直接采用主题词表中各个字段之间的关联进行扩展检索,检准率和检全率较高。
2.3.2 灵活的检索结果控制机制。该系统能根据用户不同需求对检索结果进行筛选,既可以输出关键词相关的所有概念的结果集,也可以让用户选择性输出,对有特定检索要求的用户提供了便利。
2.3.3 良好的反馈机制。该系统利用自由词表进行用户反馈,能够得到用户最为关心的检索需求,并及时对主题词表进行修改,进一步提高了系统的检全率。
传统的数字档案馆检索都是基于关键词匹配的全文检索(或其他关键字检索,如标题检索),只要文章中存在用户输人的词,该文章即被命中。这种传统的检索方式局限于表面形式,在普通的网络搜索引擎中尚可满足用户需求,但在数字档案馆这种对于查全率查准率要求极高的环境下却无法胜任。
首先,由于普通用户的专业知识不强,经常对检索词表达不清。用户在使用检索词时往往无法表达一个确切概念,如对于“计算机”这个词,可能有多种表达方式,由于这些词汇在形式上的差异,导致用户检索往往无法命中。
其次,用户在检索一个概念时可能还希望得到与该概念有关的其他概念。这时候就需要搜索引擎对用户提供的概念进行扩检,如用户输入“TCP/IP”时,可能还希望得到“网络协议”方面的信息。
第三,档案记录具备规范化的主题词。在数字档案馆中,所有的数字档案均有规范化的主题词,用户在检索时如果能直接命中这些主题词,那么查准率将会大幅提高,但由于普通用户对档案主题词并不熟悉,所以在提供检索服务时最好能够将用户提供的检索词转换为标准的主题词并进行相关概念的扩充检索。
2、基于主题词表的数字档案馆概念搜索引擎设计和实现
针对以上提到问题,我们设计了一套基于词素概念检索的数字档案馆馆内搜索引擎,该系统基于主题词表进行概念的关联,对用户提出的检索要求先进行规范化转换,而后再根据主题词进行扩检。
2.1 基于主题词表的语义关系及其应用需求
主题词是经过规范化处理的,能显示主题词之间语义关系的。有标引和检索意义的词或词组。所有有序化叙词之和就构成了主题词表。主题词表中的语义关系包括等同关系、属分关系、相关关系。词的等同关系是指一组词或词组在概念上完全相同或意义接近:属分关系指概念内涵相同、外延范围大小不同的词之间的关系:族首词则是一种特殊的属分关系,其外延范围最大:相关关系是指概念内涵之间语义联系的词间关系。
利用主题词表的用代关系规范用户提问的主题词、用属分关系实现扩检,因此主题词表在设计时应该对Y、D、F项数据访问提供方便的人口。建立主题词表以及范畴索引、词族索引这将极大地方便计算机以词表控制的自动处理技术。当然根据具体应用不同需求,词表结构还要做一些细微调整,继续完善后可以接入应用系统,本系统就是根据主题词表之间的语义关系来进行概念之间的关联的。
2.2 系统工作原理
用户首先通过检索界面输入关键词,业务层通过主题词表对关键词进行查询分析,并转换为规范化的主题词,而后再根据主题词表当中上位词、下位词和参考词字段在数据表中进行扩展检索,输出后供用户选择相应的查询结果。例如:用户输入“电脑”或者“PC”一词,查询分析器先在主题词表中查找该关键词,而后将该关键词转换为标准主题词“微型计算机”,再根据其下位词“电子计算机”、上位词“计算机”、参考词“微机”来进行扩展检索。得到四个结果集,用户可以选择输出。
整个流程主要是通过主题词表进行概念关联,下表是主题词表的数据结构:
另外,在实际使用过程中,由于各种新词汇的不断出现,经常导致用户输入的词汇无法在词表中检索到,这就需要一个及时的用户反馈机制。针对这种现象,我们又设计了一个自由词表,专门来存储用户输入的新词汇,并进行词频统计,最后专家通过系统将这些新词加入到主题词表当中或者直接上升为主题词,保证了系统的实时更新。表2即为自由词表的数据结构。
2.3 系统特点
2.3.1 基于主题词表的概念关联模式。该系统直接采用主题词表中各个字段之间的关联进行扩展检索,检准率和检全率较高。
2.3.2 灵活的检索结果控制机制。该系统能根据用户不同需求对检索结果进行筛选,既可以输出关键词相关的所有概念的结果集,也可以让用户选择性输出,对有特定检索要求的用户提供了便利。
2.3.3 良好的反馈机制。该系统利用自由词表进行用户反馈,能够得到用户最为关心的检索需求,并及时对主题词表进行修改,进一步提高了系统的检全率。