基于正则表达式技术的信息搜集引擎应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:gutian163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎作为Internet上最主要的信息检索工具,在各个领域都已得到广泛应用。然而由于网络信息量的迅猛增加和网络信息组织的无序性,传统搜索引擎的信息检索技术已经无法满足人们对信息服务个性化、智能化的需求。本文提出了专业信息服务的解决方案,并就方案中涉及到的关键技术进行了深入研究。基于正则表达式技术的信息搜索引擎系统实现搜索引擎的再发展。它拥有目前搜索引擎的绝大部分功能,同时它可以智能化的分析和保存网页重要信息,因此其搜索精度高,并将搜索结果由页面简化到有效信息。同时,系统对搜索引擎的个性化进行了大胆的尝试,取得了相当效果。由于其返回信息的高度简练,其使用范围已经从台式机扩展到了移动终端。本文首先分析了当前搜索引擎的系统结构,在对目前大部分搜索引擎技术研究的基础上,我们综合其设计思路,给出了一套新的信息检索系统的框架原型,它在现有搜索引擎的基础上进行了模块优化,形成了一套新的搜索引擎结构,并在传统搜索引擎的基础上增加了自学习功能。其次对网页中文信息处理的提取进行了研究。使用了正则表达式和自学习相结合的方式,利用web结构分析技术对网页进行结构分析和模式匹配,力图使系统拥有自动分析大部分网页并提取和归类保存其中关键信息的功能。再次我们提出了一种适用于本系统数据库架构方式,在其中加入了策略库部分以支持自学习系统。同时对设计到海量数据记录的情况进行了仿真试验,得到了大量的宝贵经验。此外,系统在传统中文分词技术的基础上,加入了网页信息分析技术,在原有词库的支持下,能够达到正确、快速的中文分词和新词的分析提取。文章最后初步研究了信息检索中的个性化技术。通过对用户提交的操作日志的处理,在横向(信息热度)和纵向(信息关联)的分析中,可以得到大量的有效信息并作为重要的网页排名参考。
其他文献
将"理论研究"和"动手实践"相结合,在制作实践中研究探索非遗"明式家具制作技艺"的保护与传承之路。以博物馆藏中国古家具为原型,复原制作1∶3缩小比例的可拆装家具模型,在高
针对目前在指纹遗留时间的研究中常用的化学方法会破坏样本的情况,提出了一种紫外成像的光学方法。首先,根据氨基酸和尿素相对浓度关系结合其散射光谱曲线理论推导了指纹在不
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
目的:探讨分析饮食管理艾灸情志护理在治疗胃脘痛中的效果。方法:选取医院2015年1月至2016年12月收治的胃脘痛71例,根据入院顺序编号并利用随机数表法分为对照组35例和观察组
血管内皮细胞(endothelial cells,ECs)既往被认为在出生后血管新生中发挥主要作用。1997年Asahara等从外周血分离出表达CD34抗原的单个核细胞,即血管内皮祖细胞(endothelial
根据开封市胡萝卜生产情况,总结出春秋胡萝卜高产优质栽培技术,包括选用品种、整地、肥水管理、适时播期、及时间苗定苗、病虫草害综合防治和春秋季适时采收等措施。
“三农”经济发展和社会主义新农村的顺利建设必须依赖于农村信用社的健康发展,而农村信用社的健康发展离不开科学有效的信贷风险防范机制,同时也依赖于信贷风险控制水平的不
采用二次回归正交旋转组合设计法,对楔横轧成形等内径空心轴的椭圆度影响规律进行有限元模拟分析和轧制实验,得到了具有较高参考价值的回归方程。依据回归方程和模拟结果,得
汽轮机轴位移测量参数,是火力发电厂中重要的监测参数之一。利用轴位移测量装置,对导致轴位移测量参数变化的各种因素进行分析,产生误差的原因包括传感系统、被测面、安装条
脱发是皮肤科临床常见的症状,脱发病因复杂、病种繁多,治疗也不尽相同。脱发疾病的诊断,除了需要对毛发生理、疾病分类和各脱发疾病的临床表现有深入的理解,还要结合相关检查