基于文本分类的专题性智能搜索引擎研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hunyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪,随着科学研究领域的不断拓展,科学发现规模的迅速扩大,各种专题性全文数据库的规模也呈爆炸性的增长.如何帮助广大科技工作者从这些数据库中方便、快速并且准确地获取有用的信息,已经成为一个急待解决的难题.该文在分析、研究传统Web搜索引擎信息检索技术的基础上,提出了将文本分类技术和个性化信息推送技术同传统Web搜索引擎信息检索技术相结合的思想,设计了一个针对专题性文本数据库的智能搜索引擎系统.该文首先阐述智能搜索引擎的设计思想,说明系统的总体框架,把系统细分为用户信息检索子系统、个性化信息推送子系统和文本自动分类子系统三大子系统.在分析传统搜索引擎检索方式存在不足的基础上,该文提出了基于主题词和基于文档实例的两种新型信息检索方式;该文对传统中文分词中的最大正向匹配算法加以改进,以提高中文分词的准确度;针对KNN(K最近邻)分类算法计算量庞大,运行时间较长的缺点,该文对其加以改进,在不影响分类准确度的前提下减少计算量,从而提高运行的效率;该文提出采用服务器端挖掘、用户主动输入和用户检索反馈三种方式来建立用户兴趣模型,从而对用户实现个性化信息的推送服务;最后,该文实现了文本自动分类子系统中的核心算法--朴素贝叶斯分类算法,并通过实验验证了算法的有效性.针对专题性文本数据库的智能搜索引擎系统的研究与应用,使得广大科技工作者能够在各种专题性数据库中方便、快速而准确地查找到所需的文献资料,不仅有助于提高各种专题性数据库的利用率,而且对于科技工作者顺利完成各项科研任务有着重要的实际意义.
其他文献
本文以企业信息化和信息系统为研究对象,聚焦于信息系统与企业核心竞争力的联系并考察信息技术对企业绩效的贡献。本文利用平衡计分卡为工具,试图建立相对全面、系统的信息系统
《新闻战线》第七期《如此“脏乱差”》一文,指出一些报纸上的错字、反字及画面倒贴。此类“脏乱差”,不论是作者笔误,还是校对不认真所致,总之都使读者皱眉。而另有些“脏
在经历了90年代初海南等地的房地产市场“虚热”和泡沫破灭后,现在新一轮的房地产热又有蓄势待发的迹象。尤其是北京、上海等部分城市的房地产市场出现投资过热、房价持续上涨
本文采取实证研究与规范研究相结合、定性分析和定量分析相结合、及纵横向比较分析的研究方法,从人力资源整体性开发与管理层次上研究江西省高校人力资源开发与管理现状;在事实
该文的研究对于国家和各级城市政府制定城市建设投资战略、加强城市管理、完善城市功能、协调城市发展、促进城建参与者提高投资效益、培育城市的区域增长极作用,从而推进中
以乙烯-丙烯酸共聚物(EAA)为增容剂,研究了它在线性低密度聚乙烯(LLDPE)/聚环氧乙烷(PEO)共混物中的增容作用及其增容机理.采用电子显微镜(SEM)、动态力学分析(DMA)、DSC和红
绿色供应链管理已经成为当前研究的热点问题,因为它顺应了时代的要求,突出考虑了环境问题,注重回收废旧产品,促进经济与环境的和谐发展。政府、核心企业与消费者的正确决策是绿色供应链构建和顺利运营的基础。在这种背景下,分析与界定基于博弈论的绿色供应链协调的相关概念,给出绿色供应链协调的框架与方法,对于解决绿色供应链协调的现实问题有着重要意义。目前,绿色供应链协调问题研究以定性分析为主,可操作性较差,需要进
By introducing a source term into the Laplace equation, a two-dimensional fully nonlinear time-domain numerical wave flume(NWF) is developed to investigate the
市场经济代替计划经济这一企业生存环境的巨大变化,必然导致企业目标和战略转变。重组后的大庆油田有限责任公司测试技术服务分公司在面临着油田产量战略性下调,主营业务收入逐
微博凭借成本低、传播快、影响大的优势迅速成为企业营销的重要阵地。那么对企业来说,理清微博营销与传统营销的差别,微博信息传播有哪些特征,如何提高微博营销效果就显得格外重