基于Active Learning的中文分词领域自适应

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:CaT614
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在新闻领域标注语料上训练的中文分词系统在跨领域时性能会有明显下降。针对目标领域的大规模标注语料难以获取的问题,该文提出Active learning算法与n-gram统计特征相结合的领域自适应方法。该方法通过对目标领域文本与已有标注语料的差异进行统计分析,选择含有最多未标记过的语言现象的小规模语料优先进行人工标注,然后再结合大规模文本中的n-gram统计特征训练目标领域的分词系统。该文采用了CRF训练模型,并在100万句的科技文献领域上,验证了所提方法的有效性,评测数据为人工标注的300句科技文献语料。实
其他文献
双语句对选择方法旨在从大规模通用领域双语语料库中,自动抽取与待翻译文本领域相关性较高的句对,以缓解特定领域翻译模型训练语料不足的问题。区别于原有基于语言模型的双语
随着社交网络的快速发展,用户在使用社交应用时会产生大量有价值的数据。通过对社交网络进行数据挖掘,发现隐藏在数据中关联用户与物品之间的偏好关系。然后对用户建模分析,
从10份沈阳地区人类免疫缺陷病毒1型(HIV-1)血浆标本中提取核糖核酸(RNA),经逆转录聚合酶链反应(RT-PCR)和套式聚合酶链反应(nest-PCR)扩增HIV-1的p17与p24交界部分的基因片
本研究旨在以HCV为平台,在简化RT-PCR基础上,结合体外转录,建立一种特异、高效、简便的检测血清中HCV RNA的体外转录合成系统.本法扩增终产物为特定极性的ssRNA,其特异性经凝
依据GenBank中SARS基因组序列,采用人工合成的方法合成编码SARS病毒N蛋白的全基因(1296bp)序列,再与设计的CTL特异性表位基因(195bp)重组后,克隆到pET-28a(+)质粒中,重组质粒
CD4 [+] CD25 [+] 规章的 T 房间(Treg ) 在 HIV-1 感染被发现了到短绒毛,短茸毛调整免疫者激活。然而, Treg 的弄空是否受益到 HIV 感染的疾病地位,仍然保持未定义。处理这个
<正>The international community of virologists welcomes Virologica Sinica to the bevy of journals - yellow, blue of different shades, green, black, and red - co
期刊
在线事件检索是针对事件查询,按时间序迭代返回小批量数据集中事件相关文档的检索任务。其目标是在时间轴上不断收集新鲜的事件文档,是进行一系列事件相关工作的重要基础。面
从浙江省3例SARS患者中收集含漱液标本,经处理后接种Vero、RD、VeroE6和Hep-2细胞进行病毒分离,培养3d后在Vero和RD细胞中可观察到细胞病变.从细胞培养上清中提取病毒核酸,用
基质蛋白和衣壳蛋白是BIV的主要结构蛋白,在病毒感染及整个复制周期中起重要作用.本文采用pTXB系统在大肠杆菌中表达出融合状态的牛免疫缺陷病毒BIV基质蛋白MA及衣壳蛋白CA,