【摘 要】
:
传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分
【机 构】
:
武汉大学计算机学院,湖北科技学院计算机科学与技术学院
【基金项目】
:
国家自然科学基金重点资助项目(61133012),国家自然科学基金资助项目(61173062,61373108),国家社会科学基金重点资助项目(11&ZDl89)
论文部分内容阅读
传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本进行分词.在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了10.35%.
其他文献
将信息熵与图像的分块处理思想相结合,提出了一种基于分块信息熵方差的图像置乱程度评估方法.在详细阐述评估方法基本原理的基础上,通过仿真实验对同一图像基于Arnold变换的像素位置置乱、基于Logistic混沌映射的像素灰度值置乱及二者级联的像素位置与灰度值均置乱的3种图像置乱方式下的置乱程度进行评估和分析,并验证了所提方法的正确性与有效性.应用该方法进一步对多幅不同图像在同一加密算法下的密文图像的置
春天毫不顾惜那些不为将来果实,只为一时兴起的花瓣,将它们抛落满地。
小鸡问:“为什么人类都有名字,而我们没有?”母鸡说:“那是因为我们还没死,死了就有很多名字啦!”小鸡又问:“那我们会叫什么名字?”母鸡说:“炸鸡、咖喱鸡、白斩鸡、烧鸡、叫花鸡……”(周继红)
小班健康活动《蚂蚁运粮》是我听过的一节相当成功的公开课,执教者以"精""异""活"的细节使教学精彩纷呈,魅力无限。一、精彩片段回放【片段一】执教者扮蚂蚁妈妈,幼儿扮蚂蚁宝宝,听
传统的空间矢量脉宽调制(SVPWM)在正交坐标系中实现时,涉及的计算量较大,相应的过调制算法更为复杂.为了更利于实时操作,文中分析了60°坐标系下SVPWM算法的特点,提出了一
《神秘岛》是法国著名科幻小说家儒勒·凡尔纳三部曲的第三部。故事叙述在美国南北战争时期,几个被困在南方军队中的北方人,趁着一个机会用气球逃脱,中途被风暴吹落在太平洋
我独自出门总是迷路,基本每次都得给老妈打电话求助:“我现在在……然后往哪儿走?”而我老妈對我说得最多的话就是“站那儿别动”“拐反了,又拐错了”“赶紧停住,站在原地,等我去接你”。嗯,还是亲妈让人放心。
活动目标 1.愿意参与小猪盖房子的创编游戏.感受游戏的快乐。 2.探索搭建不同房子的肢体动作.并在音乐的伴随下生动地表现。 3.能大胆创编动作并在集体面前表现。活动准备1.知识经
初见嵩山张耒年来鞍马困尘埃,赖有青山豁我怀。日暮北风吹雨去,数峰清瘦出云来。
因为没有赶上早上去红海的车队,我们在卢克索又多呆了一个上午。开始有些郁闷,但随后我发现,这是埃及之行最惬意的一段时光。我们几个人漫无目的地踱步在故都的街道上,时而驻足,时而踟躇,