基于半监督学习的涉及未成年人案件文书识别方法

来源 :华南理工大学学报:自然科学版 | 被引量 : 0次 | 上传用户:minghao1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
案件文书作为司法信息公开的重要内容,需要在审判之后向公众公开,某些涉及未成年人的案件文书极有可能会造成未成年人的个人隐私信息泄露。为了能从大量案件文书中准确地识别出涉及未成年人信息的文书,进而有针对性地对其进行隐私保护处理。同时,为解决现实数据集因有标注样本缺乏而难以进行有效的有监督学习的问题,文中提出了基于半监督学习的涉及未成年人案件文书识别方法。首先,对案件文书语料文本进行预处理后分别使用Word2Vec和BERT-wwm-ext对文本进行特征提取,将长语料文本转换为可作为分类模型输入的数据格式;接着
其他文献
为明确目前国内番茄用农药登记现状及存在的问题,给番茄病虫害防治及农药登记提供参考,对我国番茄用农药登记数量、类别、有效成分及防治对象、剂型、毒性等进行统计分析。结
为丰富北京地区厚皮甜瓜的种植品种,作者以6个白皮白肉、8个白皮绿肉的厚皮甜瓜品种为试验材料,通过调查株高、茎粗、叶片数、坐果节位、果实性状、口感等指标,以期初步筛选
为了增加对不同类别样例的区分度,提高模型的分类效果,提出了结合类别关键词和注意力机制的药物相互关系(DDI)抽取模型KA-BERT。首先基于卡方检验和文档频率获取每个类别的关
针对可能影响智能仓储绩效评价的各种因素,从智能仓储的建设投入、运营能力、决策时效性、安全状况、储货能力、人工需求状况这六个主要方面,建立智能仓储绩效评价指标体系,
新冠疫情爆发以来,相关谣言时有传播,但传统的谣言识别模型却难以有效判别疫情谣言,因为相较于大量历史谣言数据,疫情谣言的数量还不足以训练出良好的分类器。因此,建立一个
为筛选出适合大丰地区栽培、品质优、商品性好的西瓜品种,作者引进10个不同类型的西瓜品种开展了比较试验。试验结果表明,各参试西瓜品种植株长势旺盛、果实性状优良、商品性
构建了政企互动决策下考虑碳配额的双层规划模型,随后采用多目标粒子群优化算法求解模型,最后解析碳配额和需求不确定置信水平变化对供应链网络Pareto最优解集的影响。研究表
粮食生产功能区是国家为保障粮食安全和推进农业现代化而出台的一项重大政策。利用GIS空间分析技术,以广东省为例,结合地理国情数据,进行了省级粮食生产功能区划定方法研究。结果表明,广东省粮食生产功能区各分区面积占比分别为最适宜为77.92%、比较适宜为2.16%、基本适宜为18.89%、勉强适宜为1.03%;最适宜地类主要位于粤北的山地丘陵区、粤东和粤西沿海地区,基本适宜区主要位于珠江流域平原区;该方
在分析成渝地区双城经济圈经济和物流发展现状的基础上,以成渝地区双城经济圈的数据作为样本,采用因子分析和多元回归方程相结合的方法,研究了物流发展对区域经济的影响,研究
研究了由一个供应商和一个零售商构成的生鲜品双渠道供应链,构建了受保鲜努力影响的新鲜度变化函数以及受价格和新鲜度影响的消费者效用函数。提出“保鲜成本分担+收益共享”