ICTCLAS相关论文
With the rapid expansion of the Internet, the problem of negative public opinion becomes more and more serious, sometime......
为实现数字图书馆馆藏资源目录数据(中粒度)的中层关联数据的创建与发布,在对现有关联数据创建与发布方法进行研究的基础上,针对目......
随着社会信息化的发展,人们已迈入了信息时代,并朝着知识时代迈进。在这一时代背景下,信息对企业或组织的作用越来越突出,成为企业......
网络舆情监测在当今时代显得尤为重要,目前虽有一些监测方法,但都不完善.近邻传播算法(Affinity Propagation,AP)是数据挖掘领域中......
从网上收集相关的文本信息,用ICTCLAS进行分词,用Java编程处理、转化为Weka的ARFF格式,再利用String To Word Vector过滤器转换为......
现如今,常用的中文分词算法为IKAnalyzer(简称为:IK)和ICTCLAS(简称为:IC)两种,这两种算法也可以说是如今的主流中文分词算法,为了......
期刊
分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设......
开源搜索引擎Nutch是针对英文环境开发的,针对Nutch对中文进行单字切分的不足,在剖析Nutch分词器的基础上,基于Nut&的插件机制,结合中科......
介绍了Java本地方法的作用及意义,详细讨论了在Windows平台上,利用JNI(Java NativeInterface)在Java中调用ICTCLAS系统进行词法......
A Comparative Study on the Two Chinese Versions of The Apple Tree by John Galsworthy...
针对当前单位网站搜索引擎存在的索引速度慢、更新不及时、检索效率低等问题,在深入分析和研究Lucene和XML等技术在建立搜索引擎方......
提出一种以词性为参考值的文本挖掘算法,能有效挖掘与种子词有关的关联规则。基于Bootstrapping算法思想,既减少了预处理阶段对于词......
随着互联网、智能终端的普及和发展,信息化交流越来越便捷,每时每刻都在产生大量的信息,电子文本信息是其中一种重要的传播形式。......
中文分词(Chinese Word Segmentation)指的是将汉字序列按照一定的规则组合成词序列的过程,它是中文信息处理系统中的一个重要部分......
汉语的分词是汉语信息化、现代化的一个重要步骤,也是汉语分析的必经之路。本文通过对2009共享版ICTCLAS(中国科学院计算技术研究......
目前很多标准文献技术服务部门的信息化建设经过不断的努力,已经建立了一批以标准名称查询、文献咨询服务为核心的业务管理和信息......
本文提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合......
论文抄袭是困扰学术界的严重问题之一,当前,英文论文的相似度分析主要采用数字指纹和字符串匹配等技术,该技术发展应用的比较成熟,......
面对网络化、数字化、海量分布、复杂的信息资源,数字图书馆还不能有效地揭示和发现信息之间内在的知识联系。信息抽取技术的出现,......
当前论文抄袭现象时有发生,对于学术的严谨性产生负面影响。通过基于VSM相似度计算模型,采用ICTCLAS分词技术及MS OLE自动化技术,......
随着信息化进程的加快和深入,越来越多的企业建起了自己的企业网站(Intranet),而且这样的网站规模越来越大,数据越来越多、种类也......
针对文档管理中的全文检索功能的开发,综合运用Lucene.net、ICTCLAS等系列开源类库,建立文档解析器,将解析文档内容存储于数据库中......