全信息标注语料库的开发与应用

来源 :中国中文信息学会二十周年学术会议 | 被引量 : 0次 | 上传用户:jrno1213
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2000年我们和德国Konstanz工业技术大学国际术语和应用语言学研究中心合作开发了全信息标注语料库.该语料库包含被标注的汉语词语8000个.这是迄今为止我们见到的首次标注全信息的语料库.本文对该全信息语料库的开发与应用进行介绍.全文分为四个部分:一、全信息及全信息的内容;二、全信息的标注与语料校对,三、问题研究,四、全信息标注语料库的应用.
其他文献
本文通过对知识管理和机器翻译相关技术的对比分析,提出了以翻译知识库的构建为核心,以翻译知识的采集积累、加工处理和共享应用为手段,构建开放、动态的机器翻译系统的新思路.通过翻译知识的网络化采集、自动化积累和多策略的共享应用,改善翻译系统对知识的获取能力和应用能力,从而提高机器翻译系统的智能性和实用性.
针对话题追踪任务中话题漂移现象带来的问题,本文提出了一种基于主动学习的自适应技术ATAL.该技术采用基于流的主动学习框架,无监督地通过话题向量转移和特征权值调整两种方式自适应的更新话题模型.在更新话题模型的过程中,尝试确定性和不确定性相结合的方式作为样本选择标准.通过在TDT4的中文语料上测试,实验结果显示,采用基于主动学习的自适应技术,话题追踪的性能有所提高.
随着互联网(World Wide Web,简称Web)的发展,我们处在一个搜索无处不在的时代.据不完全统计,在互联网和企业内部,以网页、邮件、格式化文档、音视频文件为主的非结构化数据占其全部数据的80%以上.以搜索引擎为代表的互联网公众信息服务正成为新一轮网络圈地运动的生力军,以垂直搜索、企业内部搜索、桌面搜索、文本信息挖掘与融合等为代表的个性化检索技术已经成为企业智能和内容管理不可或缺的重要组成
本文提出一个基于字分析单元的辅助阅读和学习系统.该系统是为汉语学习者提供即时的辅助翻译和学习功能.在汉语网页中,该系统首先对所有的文本进行分词处理,并进行新词发现,然后对于常用词通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体用法实例.对于通用词典未收录的新词(例如:专业术语、专有名词、词组和固定短语),系统提出基于语义预测和反馈学习的方法在Web上挖掘
本文选用动态聚类算法对汉语的词进行同义词聚类分析.在该任务中,为了改善初始点给动态聚类算法全局最优性造成的严重影响,本文提出了一种根据词在文本类别中的分布选择初始点的方法.此方法在k-均值和k-中心点这两种典型的动态聚类算法中有效地提高了词聚类的系统性能.
句法分析一直是自然语言处理领域的一个重点和难点问题,准确的动词与动词搭配关系识别可为建立完全的句法分析奠定一定的基础.本文提出了一种基于最大熵模型的汉语动词与动词搭配识别方法,选取目标动词与搭配词的上下文词性信息及其关联程度的统计信息构造候选复合特征模板以及类别信息,利用粗糙集理论中的约简技术,删除复合特征模板中冗余的原子模板,从而获得训练最大熵模型所需的极小模板.四组实验结果表明(1)以同时包含
根据中国互联网络信息中心(CNNIC)的统计,到2005年4月底,我国上网用户已经突破1亿,达到1.002亿人,网民数仅次于美国居世界第二位.今天,每13个中国人就有一个与它"亲密接触",互联网正在成为各界人士获取信息的主要通道.社科院2005年互联网报告指出,我国网民平均每天上网的时间是2.73小时,单纯浏览网络论坛而不发言网民只占38.6%.这个比例说明,网民的上网行为不仅仅是寻找信息,还包含
信息处理用现代汉语语义分类体系和信息处理用现代汉语语义分类词典是现代汉语语义系统的一个重要组成部分.本文描述了信息处理用现代汉语语义分类词典管理系统的设计和实现,在语义分类词典管理系统支撑下对60000个汉语词语进行了机助标注,形成了一个信息处理用现代汉语语义分类词典并由计算机统一管理.信息处理用现代汉语语义分类体系和现代汉语语义分类词典作为强大的语义资源之一,在自然语言处理和语义学研究中将起到越
本文以北京大学计算语言学研究所开发的《现代汉语语法信息词典》为基础,对现代汉语各类词的优势语法功能进行了统计研究,从量的方面说明了现代汉语词语词类优势语法功能.
在多项国家科技计划的支持下,过去十年汉语语音信息处理技术在通用基础领域已基本达到国际先进水平,尤以体现语音综合研究实力的大词汇量、连续语音、非特定人(LVCSR)的技术突破为标志.然而,面向正在到来的网络计算时代,研究开发具有重大应用背景的语音专用技术、解决语音识别的鲁棒性问题还有很多工作要做.面向网络计算的语音应用,一方面要求语音技术特别是语音识别技术再一次从现代信号处理中汲取营养,另一方面还需