全信息标注语料库的开发与应用

来源 :中国中文信息学会二十周年学术会议 | 被引量 : 0次 | 上传用户：jrno1213

【摘要】

：

2000年我们和德国Konstanz工业技术大学国际术语和应用语言学研究中心合作开发了全信息标注语料库.该语料库包含被标注的汉语词语8000个.这是迄今为止我们见到的首次标注全信息的语料库.本文对该全信息语料库的开发与应用进行介绍.全文分为四个部分:一、全信息及全信息的内容;二、全信息的标注与语料校对,三、问题研究,四、全信息标注语料库的应用.

【作者】

：

亢世勇常宝宝刘海润徐艳华俞士汶

【机构】

：

烟台师范学院中文系(山东) 北京大学计算语言学研究所(北京)

【出处】

：

中国中文信息学会二十周年学术会议

【发表日期】

：

2001年9期

【关键词】

：

语料库全信息标注语料库现代汉语

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

机器翻译与知识管理技术的融合

本文通过对知识管理和机器翻译相关技术的对比分析,提出了以翻译知识库的构建为核心,以翻译知识的采集积累、加工处理和共享应用为手段,构建开放、动态的机器翻译系统的新思路.通过翻译知识的网络化采集、自动化积累和多策略的共享应用,改善翻译系统对知识的获取能力和应用能力,从而提高机器翻译系统的智能性和实用性.

会议

机器翻译知识管理采集积累多策略提取

基于主动学习的自适应话题追踪

针对话题追踪任务中话题漂移现象带来的问题,本文提出了一种基于主动学习的自适应技术ATAL.该技术采用基于流的主动学习框架,无监督地通过话题向量转移和特征权值调整两种方式自适应的更新话题模型.在更新话题模型的过程中,尝试确定性和不确定性相结合的方式作为样本选择标准.通过在TDT4的中文语料上测试,实验结果显示,采用基于主动学习的自适应技术,话题追踪的性能有所提高.

会议

自适应技术主动学习特征权值调整话题向量转移

互联网挖掘和搜索的研究进展

随着互联网(World Wide Web,简称Web)的发展,我们处在一个搜索无处不在的时代.据不完全统计,在互联网和企业内部,以网页、邮件、格式化文档、音视频文件为主的非结构化数据占其全部数据的80％以上.以搜索引擎为代表的互联网公众信息服务正成为新一轮网络圈地运动的生力军,以垂直搜索、企业内部搜索、桌面搜索、文本信息挖掘与融合等为代表的个性化检索技术已经成为企业智能和内容管理不可或缺的重要组成

会议

互联网搜索引擎公众信息服务个性化检索知识库数据挖掘

基于字分析单元的辅助阅读系统

本文提出一个基于字分析单元的辅助阅读和学习系统.该系统是为汉语学习者提供即时的辅助翻译和学习功能.在汉语网页中,该系统首先对所有的文本进行分词处理,并进行新词发现,然后对于常用词通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体用法实例.对于通用词典未收录的新词(例如:专业术语、专有名词、词组和固定短语),系统提出基于语义预测和反馈学习的方法在Web上挖掘

会议

词法分析新词发现术语翻译辅助汉语学习

基于词分布的初始点选取方法

本文选用动态聚类算法对汉语的词进行同义词聚类分析.在该任务中,为了改善初始点给动态聚类算法全局最优性造成的严重影响,本文提出了一种根据词在文本类别中的分布选择初始点的方法.此方法在k-均值和k-中心点这两种典型的动态聚类算法中有效地提高了词聚类的系统性能.

会议

初始点词相似度动态聚类算法词分布

基于最大熵模型的汉语动词与动词搭配识别

句法分析一直是自然语言处理领域的一个重点和难点问题,准确的动词与动词搭配关系识别可为建立完全的句法分析奠定一定的基础.本文提出了一种基于最大熵模型的汉语动词与动词搭配识别方法,选取目标动词与搭配词的上下文词性信息及其关联程度的统计信息构造候选复合特征模板以及类别信息,利用粗糙集理论中的约简技术,删除复合特征模板中冗余的原子模板,从而获得训练最大熵模型所需的极小模板.四组实验结果表明(1)以同时包含

会议

最大熵模型特征模板约简搭配识别

中文聊天语言的奇异性与动态性研究

根据中国互联网络信息中心(CNNIC)的统计,到2005年4月底,我国上网用户已经突破1亿,达到1.002亿人,网民数仅次于美国居世界第二位.今天,每13个中国人就有一个与它"亲密接触",互联网正在成为各界人士获取信息的主要通道.社科院2005年互联网报告指出,我国网民平均每天上网的时间是2.73小时,单纯浏览网络论坛而不发言网民只占38.6％.这个比例说明,网民的上网行为不仅仅是寻找信息,还包含

会议

互联网络网络论坛中文聊天语言语言动态聊天室网络聊天

信息处理用现代汉语语义分类词典的设计与实现

信息处理用现代汉语语义分类体系和信息处理用现代汉语语义分类词典是现代汉语语义系统的一个重要组成部分.本文描述了信息处理用现代汉语语义分类词典管理系统的设计和实现,在语义分类词典管理系统支撑下对60000个汉语词语进行了机助标注,形成了一个信息处理用现代汉语语义分类词典并由计算机统一管理.信息处理用现代汉语语义分类体系和现代汉语语义分类词典作为强大的语义资源之一,在自然语言处理和语义学研究中将起到越

会议

信息处理现代汉语语义分类词典

基于数据库的现代汉语词类优势语法功能统计研究

本文以北京大学计算语言学研究所开发的《现代汉语语法信息词典》为基础,对现代汉语各类词的优势语法功能进行了统计研究,从量的方面说明了现代汉语词语词类优势语法功能.

会议

现代汉语数据库语法功能语法信息词典

面向网络计算的汉语语音信息处理

在多项国家科技计划的支持下,过去十年汉语语音信息处理技术在通用基础领域已基本达到国际先进水平,尤以体现语音综合研究实力的大词汇量、连续语音、非特定人(LVCSR)的技术突破为标志.然而,面向正在到来的网络计算时代,研究开发具有重大应用背景的语音专用技术、解决语音识别的鲁棒性问题还有很多工作要做.面向网络计算的语音应用,一方面要求语音技术特别是语音识别技术再一次从现代信号处理中汲取营养,另一方面还需

会议

语音识别汉语语音信息处理网络计算

全信息标注语料库的开发与应用

与本文相关的学术论文