基于古汉语语料数据库词的划分方法研究与探索

来源 :第二十三届中国数据库学术会议(NDBC2006) | 被引量 : 0次 | 上传用户:lvxubin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国的诗歌艺术渊源流长,诗歌作为一种最接近口语的大众化文学形式,在汉语文化的成长演变与传播中占有极其重要的地位,唐代的诗歌更是集古代诗歌的优势于一身,并且把诗歌艺术发扬光大,因此对唐诗的研究历来是汉学研究的热点之一.不过,诗歌的传统研究往往依靠研究者的自身良好的文化修养,凭感悟直接把握作品的内涵,这种研究方法对于诠释作品的美学及人文意义有很强的优势,但在对作品的语言全貌进行横向和纵向的分析时,就会显得捉襟见肘. 在一个语言处理系统中,确立其基本处理单位是至关重要的.唐诗作为中国古代文化的精髓.其词汇的提取由于社会文化的变迁,完全由人来掌握这一标准已经比较困难,尤其是对于唐诗这种古代汉语的特殊的语料,统计的方法起到了非常重要的作用.本文的重点是运用统计的手段对唐诗语料进行未登录词的发现.词的统计提取最后的目的是构建词表,为语言处理系统接下来的工作做出了良好的铺垫.本文将进一步研究融合词法甚至部分语义信息,集经验主义(统计主义)与理性主义(规则主义)于一体的词的提取方法。
其他文献
本文对电力市场竞价模式和规则设计的基本原则、发电侧电力市场价格机制、期货市场与风险管理、省级电力市场竞价模式、区域电力市场竞价模式、电力市场中的"期货交易市场、日前交易市场、实时交易市场、辅助服务交易市场"的协调问题、电力市场技术支持系统的建设问题等,进行了深入的分析与研究.提出了适合中国国情的电力市场建设的若干建议.
交易管理系统是利用市场成员申报的数据,形成交易计划,并实现电力交易的管理功能.计划交易系统是电力市场运作必须建立的,是电力市场运营系统的核心功能,是实现发电厂竞价上网的关键环节.本文详细阐述了辽宁发电市场计划交易系统的设计原则、数据准备、功能,并论述了编制发电计划过程中闭环安全校核功能的实现.
介绍了作为电力市场技术支持系统子系统的发电报价辅助决策系统的设计目标、结构、各部分功能、实现方法.
XML作为一种标准数据格式,广泛应用于网络数据发布和交换中.随着网上传输的数据量的不断增长,大量XML数据在网络上快速传递,形成XML数据流.近年来涌现了许多针对XML流的查询处理方法.其中又可以分为多查询处理和单查询处理两类.后者只能处理很少的1到2个查询,如XSQ;而前者可以对XML流上提出的大量查询进行处理,如XFilter,YFilter,LazyDFA,XTrie和BloomFilter
Apriori算法是最为著名的关联规则挖掘算法,它采用基于频集理论的递推方法,挖掘出的分类规则,具有准确率高,可理解性强的优点.但是,由于Apriori算法使用支持度-置信度框架,无法挖掘出支持度小的稀有信息,而且也没有考虑到项之间的关系,因而会影响分类的准确性.Brin等人于1997年首次提出了项的相关性的概念,他们在生成规则时既考虑到了频繁的项也考虑到了非频繁项,挖掘出的相关规则能够识别项之间
景观生态学(Landscape Ecology,LE),作为景观地理学和宏观层次生态学相结合的边缘学科,不仅给生态学、地理学及环境科学研究带来了新思想、新概念、新理论,而且也在其研究方法和技术手段上提出了许多新的挑战.我国"三江并流"地区的地形多样性以及生物多样性都极为突出,此条件下,两者是否有密切联系?联系中又遵循那些规律?如何有效地组织和管理该地区的空间数据,使其以一种易于理解、易于使用的形式