香港法律汉英双语语料库XML自动标注

来源 :第七届中文信息处理国际会议 | 被引量 : 0次 | 上传用户：lj55769145

【摘要】

：

本文报告对汉英双语香港法律条文内容及层次结构特征进行XML自动标注的工作。标注好的语料库的整体结构与实际法律逻辑组织结构相同,并且利用标记信息实现条文内容的检索定位。本文的XML双语语料标注遵照国际语料库编码标准XCES,目前在中国关于语料标注遵照国际语料库编码标准XCES的专门报道较少。

【作者】

：

张霞昝红英揭春雨张坤丽范明

【机构】

：

郑州大学信息工程学院,郑州,450052 香港城市大学中文、翻译及语言学系,九龙,香港

【出处】

：

第七届中文信息处理国际会议

【发表日期】

：

2007年4期

【关键词】

：

香港法律条文双语语料库法律条例 XML标注 XCES标准双语文本标注

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于标签密度的Web页面正文内容提取方法

本文提出了一种全新的判定Web页面正文内容的方法--标签密度判定法。该方法基于Web页面由HTML标签组成这一本质特性,采用标签密度,即标签在Web页面文本中含量这一关键阈值,作为区分Web页面文本正文与广告、赞助商链接等其他内容的主要依据。对于大部分的新闻门户网站,只要标签密度阈值设置适当,此方法就能相当准确地提取出Web页面的正文内容。

会议

Web页面HTML标签正文内容提取标签密度判定法阈值设置

对整词二分自动分词机制的改进

本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快.

会议

自然语言处理中文分词技术词典法分词字数分类组织快速分词算法

“蒙古语语义词典”的数据库建设

"蒙古语语义词典"主要研究现代蒙古语词语语义关系的数据结构及其电子词典的建立.根据目前蒙古文文本处理中句法分析、句义分析、相似度计算等所需求的语义类型,我们对词典中收录的词条进行语义分类和语义关系分析两方面的详细描述。即首先要建立蒙古语语义分类系统的数据库和语义关系网的数据库两大库,词典由一个管理系统来进行维护和管理。该论文作为词典建设的初步研究主要探讨词典中两大数据库的建立及有关理论问题。

会议

蒙古语语义词典语义分类系统语义关系网数据库词典建设

基于转换的错误学习方法在中文分词后处理中的应用

为研究基于转换的错误学习方法(TBL)以后处理方式提高分词精度的问题,分别用FMM和HMM两种初始分词器,在SIGHAN 2006 MSRA和UPUC语料上试验了基于字的一元、二元、三元及其组合等九套模板.结果表明在复合模板中包含基于字的二元模板比不包含的效果好,而一元二元复合模板效果最好且在初始精度很高的情况下仍带来明显性能提升,使HMM在SIGHAN 2006 MSRA开放测试上的名次由第六位

会议

错误学习方法中文分词后处理规则模板规则裁剪分词精度

基于短语模式的评论性文章情感分类研究

目前主要的文本分类技术都是基于针对这一问题,本文提出了一种面向语义的文本情感分类技术,通过分析文本中的特定短语模式来获得文本的情感特征,对于文章中的复杂句式进行语义层的深入分析。实验证明,这种方法很好地体现了文本中的语义信息,这种基于短语模式的分类算法准确率达到95％,召回率达到93％。

会议

情感分类短语模式情感取向文本语义分类算法

利用语言概念表示的作者写作风格分类研究

文本分类是文本信息自动处理的重要研究领域,文本作者风格的识别处理可以作为一类特殊的文本分类处理。本文针对自然语言表层信息特征的数据稀疏缺陷,引入了HNC的概念基元表述体系作为特征载体,以KNN算法作为基础,进行了汉语文本作者的识别处理研究。实验数据表明,本文的处理模式达到了较高的成功率,具有可行性。

会议

语言概念空间HNC理论汉语文本分类KNN算法作者写作风格处理模式

一种两阶段的中文命名实体识别方法

本文提出了针对中文命名实体识别任务的两阶段方法。第一阶段应用条件随机场模型检测实体边界；第二阶段应用最大熵模识别实体类型。相对于同时进行边界检测和类型识别的传统一阶段方法,两阶段大大减小了条件随机场训练的计算复杂性(缩短了训练时间,减小内存消耗,生成模型更小)。SIGHAN 2006 MSRA和CityU封闭测试的结果显示,二阶段较一阶段仅仅损失1％的性能,却将计算复杂性降低80％以上.

会议

中文命名实体识别条件随机场模型计算复杂性最大熵模识别

“把”字句核心动词的计算机辅助发现及合法性判断研究

"把"字句是现代汉语中十分常用的一种特殊句式,其核心动词一般含有处置或支配的意义。外国或外族的汉语学习者在使用"把"字句时最常犯的一种错误是使用了非法的核心动词。本文探讨"把"字句核心动词的计算机辅助发现方法,针对教师教学采用基于规则的自动发现方式,针对学生学习采用交互发现方式。在发现核心动词的基础上,又介绍了判断核心动词合法性的方法。

会议

把字句现代汉语句式核心动词交互式发现合法性判断计算机辅助发现

基于本体与框架的书本知识表示与获取的研究

基于本体与框架知识表示方法,提出并实现了一种高效并且能够半自动构建领域知识层次结构与概念间关系的方法。首先知识工程师利用BABEL结构化知识表示语言对书本知识中的章节标题信息进行层次结构标记,然后利用BABEL知识编辑系统处理经过标记的书本知识,生成由XML描述存储的层次化结构知识库,实现层次化结构知识的获取.

会议

BABEL语言知识表示知识获取层次结构标记结构知识库

基于topic的blog隐含社区发现

blog使得人们进行情感交流、观点互动变得更为自由,在很大程度上增强了网络信息的互动性。有着共同兴趣或话题的blog之间通过紧密或松散的连接关系,形成独特的blog群体社区.

会议

blog社区topic发现blog页面隐含社区动态追踪

香港法律汉英双语语料库XML自动标注

与本文相关的学术论文