【摘 要】
:
提出了一种中文句子修剪方法。引入噪音通道模型,经过改进,提出了更适合句子修剪任务的Bi—NC模型。引入无导的方法,解决了中文中缺乏原句-压缩句对齐语料的瓶颈问题。提出了一种自底向上的层级优化算法,避免在优化过程中删除最优修剪句,解决了长句处理时间过长的问题。实验结果表明,本文提出的中文句了修剪方法获得了较好的效果。
【机 构】
:
华中师范大学教育信息技术工程研究中心 武汉 430079 湖州师范学院教师教育学院 湖州 313000
论文部分内容阅读
提出了一种中文句子修剪方法。引入噪音通道模型,经过改进,提出了更适合句子修剪任务的Bi—NC模型。
引入无导的方法,解决了中文中缺乏原句-压缩句对齐语料的瓶颈问题。提出了一种自底向上的层级优化算法,避免在优化过程中删除最优修剪句,解决了长句处理时间过长的问题。实验结果表明,本文提出的中文句了修剪方法获得了较好的效果。
其他文献
上梁文是—种源远流长的建筑民俗文体.宋代是上梁文创体变革的重要时期,该期上梁文的创作倾向主要表现为类型化与个陆化两种范式。一方面,类型化为上梁文确立了规范的文体样式,使其正式成为一类独立的应用文体;另一方面,随着宋代上梁文的发辰,“以文为戏”的上梁文异军突起,极大地丰富了文体功能和文学表现力,呈现出鲜明的个性化特色.就文体学意义而言,宋代上梁文演进中的这两种创作倾向,揭示了中国古代“文体正变”观念
八股文的来源非常复杂,其直接渊源是宋代科举考试中的经义,间接渊源则有经典注疏、律赋、试帖诗和古文等。本文试图把八股文放到具体的历史语境中,结合科举考试、经学演变和文学变迁等多种因素进行动态的分析,考察明代的四书文是如何融会其他文体的因素,在宋代经义的基础上逐步演化成明代的八股文的。
现代学术研究主要集中于对古代批判材料的梳理,彰显20世纪的批判所来有自。这种一边倒的现象造成了对另—种声音的严重遮蔽.本文尝试着以几个代表性人物为中心,在八股文历史意见的消极面背景下透视积极意见的另一面.本文认为:八股文取士制度不如人意的现实使得八股文的维护方有强辩之嫌,所以在功能之争上,以路德为代表的推尊八股文者处于下风.着眼文体本身体性特征是尊体八股文最为有效的途径.姚鼐、阮元、焦循、王芑孙等
任昉《文章缘起》记录秦汉以来从经学著作脱胎并独立发展起来的85个文章体类,标举其始作时代、作者和篇名,简约而完整地勾勒出中国文章学发展初期的文章谱系.后世学者对该书进行续、补、注、订误,形成一个“文章缘起类”批评体系,这些后续著作增补了后世新发展出来的上百个文体,充实了《文章缘起》的文章谱系.从这一系列“文章缘起类”文献,可以见出中国传统文章形态的发展概貌及延续至晚清的“大文章”观.
南宋遗民词的话语系统中存在着群体习语现象.中国古代士大夫文化是南宋遗民词群体习语形成的文化基础;创作主体的遗民生涯是其形成的现实基础;遗民之间的交游与唱和是其迅速形成的重要条件.南宋遗民词群体习语可分为典故类、自然物象类和心绪感受类,具有悲怨绝望的情感特征、幽孤袁凄的美感特征和真切平实的语言特征。
本文针对统计机器翻译中基于最大熵短语重排序模型特征抽取算法。提出一种改进算法。该算法能够抽取出更多准确的短语重排序信息,特别是逆序短语的特征信息,解决了原算法中最大熵训练时特征数据不平衡问题,即保序短语特征信息数量远超过逆序短语信息数量,提高了翻译中短语重排序的准确率。本文以NIST MT 05作为汉语到英语翻译的测试集,实验结果表明改进后的系统BLEU值比原系统提高0.65%。
多文档自动文摘能够帮助人们自动、快速地获取信息,本文实现了一个基于主题模型的中文多文档自动文摘系统,其中主题模型采用浅层狄利赫雷分配(LatentDirichlet Allocation,LDA),该模型是—个多层的产生式概率模型,能够检测文档中的主题分布。该方法使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表
本文提出了一种特定主题概念关联知识挖掘的方法。在实际特定主题的语料基础上,本文使用了信息增益的方法选取出主题关键词,并对关键词所对应的关联概念进行统计,结合对应关键词的重要程度值,赋予这些关联概念以权重值,从而根据权重值得到特定主题下的概念关联知识及其表达式。通过实验证明,该方法是有效的。
本文利用概率潜在语义分析,给出了两种用于判别词汇的情感倾向的方法。一种是使用概率潜在语义分析获得每个目标词和基准词之间的相似度矩阵,再利用投票法决定每个目标词的情感倾向;二是利用概率潜在语义分析对目标词进行语义聚类和扩展,自动找到每个目标词的同义词,然后采用基于同义词的词汇情感倾向判别方法对目标词的情感倾向做出判别。这两种方法的优点均在没有外部资源的条件下,可以实现情感倾向的判别。
目前使用特征方法进行语义角色标注研究已经遇到发展瓶颈,性能难以进一步提高;而基于核函数的方法可以充分利用特征方法无法表示的结构化信息,有进一步研究的空间。本文使用SVM提供的卷积树核函数构造了—个中文语义角色标注系统,该系统以依存关系作为标注单元进行中文语义角色标注。本文重点描述了通过不同的裁剪方法来获得依存树的结构化信息,裁剪后的依存树分别为最短路径树和最小树。在中文ProDBank和NomBa