基于Active Learning的中文分词领域自适应

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：CaT614

【摘要】

：

在新闻领域标注语料上训练的中文分词系统在跨领域时性能会有明显下降。针对目标领域的大规模标注语料难以获取的问题,该文提出Active learning算法与n-gram统计特征相结合的

【作者】

：

许华婷张玉洁杨晓晖单华徐金安陈钰枫

【机构】

：

北京交通大学计算机与信息技术学院

【出处】

：

中文信息学报

【发表日期】

：

2015年5期

【关键词】

：

中文分词领域自适应主动学习 Chinese word segmentation domain adaptation active learning

【基金项目】

：

国家国际科技合作专项资助（2014DFA11350）, 国家自然科学基金（61370130）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在新闻领域标注语料上训练的中文分词系统在跨领域时性能会有明显下降。针对目标领域的大规模标注语料难以获取的问题,该文提出Active learning算法与n-gram统计特征相结合的领域自适应方法。该方法通过对目标领域文本与已有标注语料的差异进行统计分析,选择含有最多未标记过的语言现象的小规模语料优先进行人工标注,然后再结合大规模文本中的n-gram统计特征训练目标领域的分词系统。该文采用了CRF训练模型,并在100万句的科技文献领域上,验证了所提方法的有效性,评测数据为人工标注的300句科技文献语料。实

其他文献

基于翻译模型和语言模型相融合的双语句对选择方法

双语句对选择方法旨在从大规模通用领域双语语料库中,自动抽取与待翻译文本领域相关性较高的句对,以缓解特定领域翻译模型训练语料不足的问题。区别于原有基于语言模型的双语

期刊

双语句对选择生成式建模翻译模型语言模型权重调节bilingual data selection generative modeling trans

基于矩阵分解的个性化推荐系统研究

随着社交网络的快速发展,用户在使用社交应用时会产生大量有价值的数据。通过对社交网络进行数据挖掘,发现隐藏在数据中关联用户与物品之间的偏好关系。然后对用户建模分析,

期刊

矩阵分解个性化推荐系统社交网络用户建模matrix factorization personalized recommender system so

沈阳市人类免疫缺陷病毒的基因序列分析

从10份沈阳地区人类免疫缺陷病毒1型(HIV-1)血浆标本中提取核糖核酸(RNA),经逆转录聚合酶链反应(RT-PCR)和套式聚合酶链反应(nest-PCR)扩增HIV-1的p17与p24交界部分的基因片

期刊

人类免疫缺陷病毒1型序列分析变异选择压力HIV-1 Analysis of gene sequence Variation Selective p

结合RT-PCR体外扩增检测HCVssRNA的研究

本研究旨在以HCV为平台,在简化RT-PCR基础上,结合体外转录,建立一种特异、高效、简便的检测血清中HCV RNA的体外转录合成系统.本法扩增终产物为特定极性的ssRNA,其特异性经凝

期刊

丙型肝炎病毒逆转录PCR体外转录Hepatitis C virus(HCV)RT- PCRTranscription in vitro

SARS-CoV核衣壳蛋白的表达与免疫研究

依据GenBank中SARS基因组序列,采用人工合成的方法合成编码SARS病毒N蛋白的全基因(1296bp)序列,再与设计的CTL特异性表位基因(195bp)重组后,克隆到pET-28a(+)质粒中,重组质粒

期刊

严重急性呼吸道综合症(SARS)核衣壳蛋白N表达抗体IGGSARS Nucleocapsid protein Gene expressionI

Frequency and Absolute Number of FoxP3^＋ Regulatory T Cells Correlate with Disease Progression of Ch

CD4 [+] CD25 [+] 规章的 T 房间(Treg ) 在 HIV-1 感染被发现了到短绒毛,短茸毛调整免疫者激活。然而， Treg 的弄空是否受益到 HIV 感染的疾病地位，仍然保持未定义。处理这个

期刊

T细胞艾滋病艾滋病病毒侵染疾病进展频率数量病毒复制T-Lymphocytes HIV Infections Tolerance/Suppres

Glück auf （Good luck）-Virologica Sinica

<正>The international community of virologists welcomes Virologica Sinica to the bevy of journals - yellow, blue of different shades, green, black, and red - co

期刊

基于事件图的在线事件检索

在线事件检索是针对事件查询,按时间序迭代返回小批量数据集中事件相关文档的检索任务。其目标是在时间轴上不断收集新鲜的事件文档,是进行一系列事件相关工作的重要基础。面

期刊

事件图在线事件检索事件查询模型事件演变event graph online event-based retrieval event query mo

浙江省SARS冠状病毒分离与系统进化树分析

从浙江省3例SARS患者中收集含漱液标本,经处理后接种Vero、RD、VeroE6和Hep-2细胞进行病毒分离,培养3d后在Vero和RD细胞中可观察到细胞病变.从细胞培养上清中提取病毒核酸,用

期刊

SARS冠状病毒分离系统进化树序列传染性非典型肺炎SARS Virus isolation Sequence Phylogenic tree

牛免疫缺陷病毒基质蛋白和衣壳蛋白的可溶性表达

基质蛋白和衣壳蛋白是BIV的主要结构蛋白,在病毒感染及整个复制周期中起重要作用.本文采用pTXB系统在大肠杆菌中表达出融合状态的牛免疫缺陷病毒BIV基质蛋白MA及衣壳蛋白CA,

期刊

牛免疫缺陷病毒基质蛋白衣壳蛋白pTXB表达系统BIV Matrix Capsid pTXB system

基于Active Learning的中文分词领域自适应

与本文相关的学术论文