论文部分内容阅读
随着互联网的快速发展,网上的信息呈指数级增长。因此,如何处理网上的海量信息成为非常重要的研究课题。文本分类和信息检索的研究可以帮助人们有效的从网上找到自己感兴趣的信息,帮助用户在日益增多的信息中发现对自己有用的知识。本文从以下三个方面对信息检索的相关问题进行了研究:首先对文本分类相关技术进行讨论。主要包括:1)引入义类的概念,设计了一个图结构的同义词词典,并给出了该词典的生成算法。应用该词典可以按语义对向量维数进行压缩;词典作为文本分类系统的启发式知识,可以提高系统的模拟推理能力、增加系统对开放语料的处理能力。2)提出一种仿人文本分类算法,该算法一方面基于文章的标题可以突出内容的观点,在处理特征向量时增加标题的权重;另一方面,设计了一维加权因子ω向量,用以模仿人工分类专家的略读和跳读,对大量出现在正例集而较少出现在反例集中的特征项,在计算文档聚类中心时增加它们的权重。实验表明:该算法可以较好的提高文本分类系统的性能。其次,是对网页检索相关问题的研究。主要研究内容:1)针对搜索引擎检索的对象是Web页面这一特点,通过分析HTML标签的修饰功能,结合传统的tf-idf加权公式,对网页进行加权索引。实验证明对于精确匹配,在查全率较低时系统的查准率有较大的提高。2)利用词间相关性进行查询结果重排。根据Web页面篇幅较小的特点,提出“网页主题关键词集合”的概念。利用词间相关性计算用户查询词集合与网页主题关键词集合之间的距离,对检索结果重新排序。将与用户查询需求相关性较大的网页排在前面。3)查询扩展是提高信息检索效果的一个有效方法,而扩展词的选择是查询扩展的一个难点。通过词共现分析,提出了一种新的词间相关性计算方法,应用于查询扩展,所选扩展词和查询整体关联,较好地反映了查询主题。实验表明,基于这种词间相关性进行查询扩展,对于信息检索性能有一定提高。最后,对基于内容的多媒体信息检索进行研究。分别对MPEG-7标准的部分描述子进行多媒体检索实验研究。在此基础上,1)提出了一种利用MPEG-7标准中的主颜色描述子抽取镜头视频关键帧的方法,并进行了相应的实验;2)利用主颜色描述子与同构型纹理描述子所适应的检索范围不同,结合两者对关键帧进行了检索实验;3)将以上研究结果应用于“CG(Computer Graphics)制作环境项目管理系统”。