基于网络爬虫的法律文本纠错词库构建

来源 :软件 | 被引量 : 0次 | 上传用户:dahaneralpha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了构建全面而且准确的法律文本纠错词库,本文提出基于网络爬虫的词库构建方法。此方法以常用爬虫为基础,扩展主题选取、网页排序等功能模块以提高爬虫的精准度和查全率。在得到数据后进行数据清洗以筛选有用词汇形成最终可使用的专业纠错词库。通过系统试运行验证了本爬虫设计方案的可行性,可以为相关词库的构建提供支持。
其他文献
蓝色海洋与绿色热带森林是海南两种重要的旅游资源。但长期以来,海南旅游业发展不平衡,蓝色滨海旅游发展快,绿色森林旅游发展慢。而海南热带森林资源丰富,到目前为止拥有8个国家
本文研究了γ-Al2O3在高温和高温水蒸气条件下的结构稳定性.结果表明,拟薄水铝石的孔结构在高温水蒸气条件下没有高温条件下稳定.同时还表明,拟薄水铝石在某一温度下转变为γ
“数字城市”是综合运用GIS(地理信息系统)、遥感、定位系统、宽带网络、多媒体及虚拟仿真等技术,对城市的基础设施及功能机制进行信息自动采集、动态监测管理、辅助决策服务的
目的对比植入非对称区域折射型多焦点人工晶状体(multifocal intraocular lens,MIOL;SBL-3)与可调节型IOL(accommodating IOL,AIOL;Tetraflex HD)后的视觉质量。方法前瞻性队
新生入学是开始大学生活的重要时期,新生入学教育是大学教育的重要一课。通过调查东北农业大学新生入学教育现状,分析新时代学生特点及入学教育存在的问题,探索基于易班平台
河南美和文化传播有限公司(以下简称“美和文化”)是一家立足于四线城市新乡的创意设计及打印输出公司,为客户提供完整的创意解决方案。美和文化的前身是成立于2006年的美和
脂蛋白相关磷脂酶A2(Lipoprotein-associated phospholipase A2,Lp-PLA2)作为粥样硬化性心血管疾病(ASCVD)的预测因子正在获得接受。相关研究提示其对冠心病及冠脉病变程度有
浙江工平智能设备有限公司(以下简称“工平智能”)是一家集图文设备研发、生产、销售,并面向全球客户提供新蓝图全套解决方案及产品服务的企业。下面,我将就数码蓝图机的发展
目的:通过以△心排量指数(Cardiac Output Index, CI)≥15%为容量治疗有反应性,判断心排量指数(Cardiac Output Index, CI)与每搏量变异(Stroke Volume Variation, SVV)的相关
在中国经济以及信息化快速发展的的背景下,制造企业开始使用CRM客户关系管理系统对企业销售进行管理,系统使企业销售得到了很大的提升,但在很多企业重组的情况信息系统不能很好