基于分类的智能信息检索研究与实现

来源 :华北水利水电学院学报 | 被引量 : 0次 | 上传用户:LuYang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索(Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索技术。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 目前,信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索的效率和准确性提出了更高、更多样化的要求。现有的信息检索工具(搜索引擎)的查全率和查准率不高,为了提高信息检索工具的查全率和查准率,人们提出了各种各样的技术和算法,旨在使信息检索工具更趋于智能化和人性化。 本文在研究传统信息检索技术实现的同时,结合现有的网页分类技术,对智能信息检索进行了较为系统的研究。在此基础上对基于分类的智能信息检索中的中文分词、网页索引、网页特征提取、网页分类、提出了一定的思考和见解。论文主要工作如下: (1)本文首先针对网页结构的特点,分析了网页中对分类过程有贡献的信息成分。使用了一种简单而又高效的词典存储方式,使其在切分速度上有了很大的提高,而所得到的切分结果也基本上满足网页分类中对中文分词的要求。采用了词串统计的方式,提高了未登录词的识别几率。 (2)传统的中英文分类的特征提取方式并没有考虑汉语词语之间的语义关联(反义词、近义词、同义词),在本文中,我除了考虑了语义关联,还提取了网页标题,一起参与特征词的提取,使特征词的提取较传统的方法更为合理,并对CHI公式做了一些改进,使之更符合中文Web的特征表示。 (3)研究了现有的网页分类方法,结合了网页的特点,在传统的特征加权公式的基础上,提出了一种网页分类的特征加权公式。 (4)对网页的索引及搜索进行了探讨,并这两项技术进行了编程实现。 (5)在上述理论的基础上构建了一个较为完整的分类检索系统,使用VC++6.0开发环境,在Windows操作系统上实现了一个分类检索系统,并对实验结果做出了评价。
其他文献
目的:探讨冠心病心绞痛中医证候与合并病的相关性。方法:采用临床流行病学方法,多中心收集了500例经冠脉造影证实的冠心病心绞痛患者,用多元对应分析进行相关性研究。结果:在
体育全球化的实质是欧美化。奥林匹克是当今体育思想、组织制度、内容形式的集大成者 ,欧美中心主义表现得淋漓尽致 ,其特征是“输出”意识强烈、排他性、强化认同。欧美中心
目的:探讨胃灵冲剂对大鼠慢性萎缩性胃炎(CAG)G细胞、D细胞及胃粘膜病理组织学的影响,以探索治疗CAG的机制。 方法:100只Wistar雄性大鼠被随机分为5组,正常对照组、模型组
近年来,国内食用菌栽培从小农栽培渐渐向规模、设施栽培转变,这已成为栽培者的共识。然而,目前设施栽培依然停留在经验栽培上,在栽培环境控制上也仅是利用简单的电子时间控制
随着市场经济的飞速发展,消费者需求日益个性化。企业为适应这种情况,必须具备个性化的营销能力和一种根据营销信息将互联网、信息和企业资源整合的能力。营销信息系统营运而
在我国零售业发展史上,百货业扮演着重要的角色。从曾经的零售主导业态到与各新兴零售业态竞争并存,百货业一直是零售发展的主力军,而今,百货业正在进行着一场前所未有的大调
重点阐述了大型高炉生产要达到的目的、操作管理的出发点以及日常操作管理技术,认为大型高炉的生产指导方针,应该以炉况稳定顺行为基础,最终达到安全、稳定、顺行、优质、高
陶渊明是魏晋风度的代表,他的特立独行本身就是对那个特定时代社会的嘲弄和挑战。他的作品坦诚而冷静地记录了他内心的波澜,最大限度地展示了自己的内心矛盾,表现出一种诙谐
扣碗酪作为中国特色的产品,得到国内外乳品专家和消费者的认可,但是由于对它的凝乳机理、微生物、凝乳酶学性质、凝乳质地、感官评定方法等方面的研究还不深入,经常出现凝乳
目的:比较不同炮制方法对中药饮片黄曲霉毒素B1(AFB1)含量的影响。方法:间接竞争酶联免疫吸附法(ELISA)测定中药饮片加热炮制前后黄曲霉毒素B1含量。结果:加热炮制能够降低饮