信息检索相关技术研究

被引量 : 0次 | 上传用户:taibei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网上的信息呈指数级增长。因此,如何处理网上的海量信息成为非常重要的研究课题。文本分类和信息检索的研究可以帮助人们有效的从网上找到自己感兴趣的信息,帮助用户在日益增多的信息中发现对自己有用的知识。本文从以下三个方面对信息检索的相关问题进行了研究:首先对文本分类相关技术进行讨论。主要包括:1)引入义类的概念,设计了一个图结构的同义词词典,并给出了该词典的生成算法。应用该词典可以按语义对向量维数进行压缩;词典作为文本分类系统的启发式知识,可以提高系统的模拟推理能力、增加系统对开放语料的处理能力。2)提出一种仿人文本分类算法,该算法一方面基于文章的标题可以突出内容的观点,在处理特征向量时增加标题的权重;另一方面,设计了一维加权因子ω向量,用以模仿人工分类专家的略读和跳读,对大量出现在正例集而较少出现在反例集中的特征项,在计算文档聚类中心时增加它们的权重。实验表明:该算法可以较好的提高文本分类系统的性能。其次,是对网页检索相关问题的研究。主要研究内容:1)针对搜索引擎检索的对象是Web页面这一特点,通过分析HTML标签的修饰功能,结合传统的tf-idf加权公式,对网页进行加权索引。实验证明对于精确匹配,在查全率较低时系统的查准率有较大的提高。2)利用词间相关性进行查询结果重排。根据Web页面篇幅较小的特点,提出“网页主题关键词集合”的概念。利用词间相关性计算用户查询词集合与网页主题关键词集合之间的距离,对检索结果重新排序。将与用户查询需求相关性较大的网页排在前面。3)查询扩展是提高信息检索效果的一个有效方法,而扩展词的选择是查询扩展的一个难点。通过词共现分析,提出了一种新的词间相关性计算方法,应用于查询扩展,所选扩展词和查询整体关联,较好地反映了查询主题。实验表明,基于这种词间相关性进行查询扩展,对于信息检索性能有一定提高。最后,对基于内容的多媒体信息检索进行研究。分别对MPEG-7标准的部分描述子进行多媒体检索实验研究。在此基础上,1)提出了一种利用MPEG-7标准中的主颜色描述子抽取镜头视频关键帧的方法,并进行了相应的实验;2)利用主颜色描述子与同构型纹理描述子所适应的检索范围不同,结合两者对关键帧进行了检索实验;3)将以上研究结果应用于“CG(Computer Graphics)制作环境项目管理系统”。
其他文献
第一部分胃癌基质金属蛋白酶MMP-2,MMP-9的表达及临床意义目的探讨胃癌组织基质金属蛋白酶(MMP-2、MMP-9)的表达与肿瘤的临床意义。方法采用免疫组化法(S-P)法检测83例胃癌病
长江口邻近海域是东海物质通量和陆海相互作用研究的关键区域。本论文利用908专项2004年、2006年在长江口邻近海域进行底质调查所获沉积物样品进行了系统的粒度和地球化学分
<正>中华中医药学会主办,广东省仲景学说专业委员会和广州中医药大学第一附属医院承办的国家级继续教育项目"第七期全国经方运用高级研修班"于2008年12月5日至11日在广州中医
Kalman滤波方法主要是工程上估计和分析的一种重要工具,目前在经济研究中的应用还是比较少见的,但是,这种方法在参数估计和预测上具有实时跟踪等众多优点。因此,本文将主要通
21世纪是知识经济的时代,是个需要多样化人才的时代,是个关注个性发展的时代。在这样的时代背景下,全世界都重视教育,关注儿童、青少年的成长和发展,中国作为经济快速发展的国家,也
随着我国经济的不断发展和人民生活水平的提高,旅游业也得到了迅速发展,旅游也由个人的偶然行为转化为一项社会组织行为,人们经国内或出国旅游来满足精神生活需要。旅游合同成为
随着网络技术的高速发展,互联网的普及度越来越高,但是随之而来就是网络安全问题,例如黑客入侵、计算机系统漏洞等。本文就计算机中可能会出现的安全隐患做了详细的分析,并且
目的:观察聚乙二醇化重组人生长激素(PEGGH)在去脑垂体大鼠体内的(invivo)促进生长的生物活性功能和长效药理作用。方法:以摘除脑垂体的大白鼠为动物模型,PEGGHd1一次给药;rh
汪受传教授认为异位性皮炎的病机关键在于风、湿、毒三者交互为病,治疗应以祛风化湿解毒为大法。根据患者年龄的不同,分婴儿期、儿童期、成人期加以辨证,临证分别以消风散、
新一轮的数学课程改革提出了将传统单一、被动接受式的学习方式转变为主动探究式的学习方式,倡导学生的数学学习要从“已有的生活经验出发,让学生亲身经历将实际问题抽象成数