基于改进TF-IDF的三项制度法制审核模型研究及应用

来源 :湖北大学 | 被引量 : 0次 | 上传用户:jay1222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为响应国务院办公厅《推行行政执法公示制度执法全过程记录制度重大执法决定法制审核制度试点工作方案》,某省地方税务局组织相关人员设计开发了“三项制度改革平台”,三项制度法制审核子系统是三项制度改革平台的三大子系统之一,本人有幸参与并负责该子系统的设计与开发。在分析三项制度法制审核子系统运行过程中的数据发现在“审核是否上会”环节存在如下两个主要问题:1)存在短时间内审核人员工作量大的问题;2)存在审核人员的工作质量问题,如把本不应该上会的文书做了上会处理即进行会议审议,造成会议审议工作量大的问题。本文针对这两个主要问题,研究并设计了基于改进TF-IDF的三项制度法制审核模型,通过模型给出是否进行会议审议的推荐意见来解决问题。模型主要包括对不平衡数据进行预处理,采用Bigram方法对文本数据进行分词,采用停用词表去除停用词,采用卡方检验方法进行特征选择,采用TF-IDF算法进行特征加权,采用支持向量机算法来训练模型等步骤。本文所做主要工作:1、在数据预处理环节,提出了一种采用K-Means和过采样技术相结合的方法来解决数据不平衡问题,避免模型给出的结果偏向于样本数据量多的一类。2、在特征选择环节,提出了结合特征词的词频因子、特征词在类间的集中度系数、特征词的修正系数,和特征词的权重因子的卡方检验方法,解决了卡方检验的低频词等问题。3、在特征加权环节,提出了结合改进后卡方检验方法的TF-IDF算法,弥补了TFIDF算法没有考虑特征词在某个类别文本集中的分布情况和所有类别文本集之间的分布情况的不足。4、在分类环节,将采用改进后TF-IDF算法计算得到的特征词的权重值作为输入数据输入到支持向量机算法中训练生成模型。通过对实验结果进行分析,证明了基于改进TF-IDF算法的模型在模型准确率、召回率、FMeasure值方面平均提升效果都大于5%,说明了改进后TF-IDF算法的有效性。最后将训练好的三项制度法制审核模型运用于三项制度法制审核原型子系统中。
其他文献
本文阐述的科学数据共享服务是以云计算为背景,以科学数据共享服务平台为依托,以科学数据的存储管理、共享重用、资源整合等形式展开的满足用户科研需求的服务。由于云计算环境具有资源虚拟化、数据复杂性的特点,科学数据共享服务提供者很难向科学数据共享服务用户承诺其服务能力与服务质量,严重影响了科学数据共享服务选择的准确性以及交易双方的相互信任。除此之外,科学数据共享服务提供者更热衷于提供不同等级的服务管理和服
在含油气盆地中,断裂交汇现象非常普遍,由于叠加了两组或多组断裂的构造变形,交汇部位岩石破裂程度、活动强度及断裂带宽度等均比单一断裂较为复杂,在油气成藏中的作用也更加复杂。在对板桥地区三维地震解释资料进行详细梳理基础上,分析了断裂的几何学特征。综合应用“三图”的方法时,主要选取了板桥斜坡3条典型断层:板桥、大张坨和刘岗庄断层,对其“三图”(断距-落差曲线、落差/生长指数-埋深曲线、断面断距等值图)进
随着市场经济的逐步发展,越来越多的个人变得独立,离婚率不断上升,使得夫妻共同债务问题在离婚诉讼中的比例逐年上升,增加了法官确定债务性质的难度。夫妻共同债务的法律研究由来已久,婚姻法和民法学者对此问题提出了许多建设性意见。然而,法治的实施始终离不开社会现实。从我国的立法和司法解释可以看出,立法者是利益倾向的保护者。在一定程度上,法律的不完善导致法官的在适用法条或司法解释的时候,对其理解不同,对同一案
乌鲁木齐市位于我国西北边陲,亚欧大陆中心,地处天山山脉中段北麓,准噶尔盆地南缘,冬季寒冷,降雪多,具有开展冰上运动的天然优势。借2016年第十三届全国冬运会在新疆成功举办的良好氛围和成功申办2022年北京冬奥会为契机,运用文献资料法、专家访谈法、问卷调查法、实地调查法、数理统计法等研究方法,本研究旨在了解乌鲁木齐市冰上传统项目学校冰上运动项目的开展情况,通过对乌鲁木齐市冰上传统项目学校冰上运动项目
诚信是一个人在思想、言论、行为三个方面对自己、他人、社会和国家的诚实、守信和信任。社会成员的普遍诚信不仅是社会安定和有序的基础和前提,也是一个国家和地区长治久安、繁荣富强的内在动力。然而,在当今社会,各种失信现象频发,不仅催生了大众对一些领域的信任危机,还造成了社会成员之间相互提防甚至加害的局面,严重破坏和阻碍了社会的和谐有序和经济的繁荣发展。实现社会主义现代是我国新时代的伟大目标,这一目标的实现
在中国特色社会主义新时代,文化建设的地位已显得格外重要,而公共文化服务在社会和谐和人们幸福指数中的重要地位也得以凸显。在整个公共文化服务体系中,县域公共文化服务是其中异常重要的一部分,因为它直接关乎到基层群众的文化权益和精神需求,是建设和谐社会的基础性保障。而分析县域公共文化服务绩效不仅可以直接反映各县域公共文化服务的质量,了解各地区文化发展的不足,还可以深入研究分析其原因,促使不同区域在一定程度
近年来,国家政策对地理信息产业的大力支持持续推动着地理信息产业的发展,社会经济的发展以及信息技术取得不断突破,助力我国地理信息产业从“十二五”期间以来高速增长势头。在国家政策对新型地理信息产业服务企业的大力支持,以及测绘地理信息行业的市场需求的不断扩展,GXBDX公司紧紧抓住广西地理信息测绘产业快速发展的机遇。近年来业务规模不断扩大,人员需求急速扩大。这时,公司的人力资源管理及相关工作就显得日益关
近年来,网络信息技术获得了巨大的发展,它为人们提供便利的同时也带来了巨大的困扰。信息种类越加繁多,信息结构越加复杂,逐渐造成了信息过载问题。个性化推荐系统以满足用户信息需求为核心,通过对用户偏好的分析,为用户提供具有针对性的信息,具有极高的市场应用价值。隐语义模型是最近几年推荐系统领域中较为热门的研究话题,其核心目标就是通过对用户信息特征的分析来为用户提供与其兴趣相符的物品或信息。其工作机制主要是
介词在英语中数量不多,但使用频率高,意义丰富,对英文的理解和使用均起着十分重要的作用。据Kennedy(1998)统计,英语文本中每8个词中就有1个介词。空间概念在人类认知过程中占据特殊重要地位,大多数介词都被赋予了空间的意义。而空间介词隐喻义与语言使用者所处的文化环境关系密切,由于中西方思维的差异,导致中国学生在使用时与母语者显示出巨大的差别。本研究基于认知语言学下的原型理论,意象图式及空间隐喻
煤和煤矸石燃烧发电过程中释放的二氧化硫和汞污染物给大气环境质量造成了严重影响。为有效控制二氧化硫和汞污染物的排放,需要深入认识煤和煤矸石燃烧过程中二氧化硫和汞的动态释放行为,从而有针对性地开发相应的处理技术,控制污染物向环境中的释放。本研究针对煤和煤矸石燃烧发电过程中的SO_2和Hg0释放及控制问题,采用实验室小型固定床模拟装置,以相同产地的煤和煤矸石作为研究对象,研究了煤和煤矸石热解过程中SO_