化工类专业搜索引擎中的中文分词设计

来源 :北京化工大学 | 被引量 : 2次 | 上传用户:FJHGL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词技术属于自然语言处理技术范畴,它是中文信息处理中的一个主要组成部分,是中文语言理解、文献检索、机械翻译以及语言合成系统中最基本的一部分。对于中文搜索引擎,中文分词模块的不可或缺是其一个显著的特点。 对于专业化搜索引擎,针对该专业词汇分词的优化尤其重要。本研究室承担了作为面向化工专业信息查询搜索引擎的211工程项目。为实现网上化工类信息的快速准确获取,在对现有算法深入分析研究的基础上经过实验改进,找出一种新的可以对含有大量化工类专业词汇的中文文档进行有效分词的算法。并使用Java语言将其实现,实际应用于化工类专业搜索引擎的分词模块。 论文中提出了一种基于常规最短路径方法的分词算法:层进式最短路径分词方法。使用该算法可以消除大量歧义,取得较好的分词效果。文中还详细介绍了整个分词模块的设计结构。包括分词用词典的结构设计实现,词典中包含有大量化工类专业词汇,可以用于优化针对化工专业的分词并实现了高效的词典查询算法;为避免相似功能的重复开发,实现代码重用的对象复用架构和基于该架构的线程池实现方案;组成分词模块的层次结构,其中使用了相关技术以优化分词的效率;分词算法的具体实现。
其他文献
入侵检测系统是指能够自动识别计算机系统内入侵行为的系统,它可以检测出内部用户或外部入侵者的非授权使用、误用和入侵等异常行为模式,保护计算机系统的安全。其关键和核心
随着Internet的高速发展,网络信息已经由传统的以文字图片为主发展为以音视频为代表的多媒体信息。对于网络视频直播等一对多的大规模视频传输,组播是一种理想的解决方案。但
近年来互联网的迅猛发展带动了各种网络产业的兴起,多样的通讯模式,繁多的网络应用应运而生。P2P网络对等通信的独特性使得其广泛应用在网络数据下载、网络通讯等各个方面,因此
在信息时代,市场环境变化剧烈。面对全球日益激励的市场竞争,企业特别是中小企业应该充分利用各个方面的资源为自己服务,以提高自己的核心竞争力。而在网络化制造模式下,资源
在软件安全领域,软件故障树分析法是一种重要的软件危害分析方法,但是,软件故障树的建模和分析是非常繁琐费时的,因此,本文将计算机辅助技术引入软件故障树的建模和分析之中,提出了
本文主要是对编钟乐舞动作编排技术进行了研究.简述了面向编钟乐舞的虚拟角色的动作库的制作过程.着重分析了舞蹈文法下的动作归类及其对应关系.探讨了基于情感模型下的动作
互联网技术和移动通信技术的迅猛发展和相互逐步融合,已使“IP协议将成为统一的网络平台”成为业界的共识。人们渴望通过自己手中的移动终端设备接入互联网络,并且享受像固定
本课题来源于大庆采油一厂电能量智能监控及计费系统。该系统基于GPRS数据传输技术,它是电力部门进行电量实时传输,智能监控,进行电量、线损、网损计量和统计分析,以及电费核算的自动化工具。从应用目的,采集数据,功能指标等各方面来看,它都有别于传统的SCADA系统和MIS系统。 本论文以大庆采油一厂为研究对象,详细讨论了系统开发中所使用的技术:GPRS、面向对象技术、数据库技术;并且探讨了系统开发
智能计算机辅助教学(Intelligent Computer Assisted Instruction,简称ICAI)以认知学和思维科学为理论基础,通过研究人类学习思维的特征和过程,将人工智能技术应用于计算机辅
随着全球经济一体化和计算机网络的发展,需要处理的印刷英文材料也在不断增长,传统的键盘输入已经远远不能满足需要,如何解决大批量文字资料的输入成为模式识别领域一个急需解决