文本分类中粗分类数据噪声修正的网络算法

来源 :情报学报 | 被引量 : 0次 | 上传用户:ck0551
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本分类的实际应用中经常使用粗略分类的数据来训练分类器,但是这种数据中经常会包含类别标记有误的数据,这些数据对文本分类结果的精度会造成不良影响。本文针对这个问题提出了一种噪声修正算法,首先建立文档关联网络,把文档上标记的类别作为在网络上划分的集团结构,并用模块度衡量集团结构的质量,通过优化模块度指标把噪声数据调整到合适的类别中,从而提高数据质量。实验结果表明,本文所提算法能够有效修正粗分类数据中的噪声,且有较高的有效性和鲁棒性。该算法可以用于文本分类训练数据的预处理,或作为辅助技术用于文献库建设等工作。
其他文献
介绍了沥青混凝土桥面铺装层病害的几种破坏形式,并对这些病害的产生原因进行了分析,同时提出了相应的一些防治措施,以达到提高沥青混凝土桥面铺装层质量的目的。
分别从科技情报等三个不同专业的角度,分析了我国情报学专业教育不同的发展阶段,并从本科、硕士和博士三个不同教育层次对我国情报学教育的发展现状进行了分析,最后指出我国情报
在我国的很多研究领域都存在理论与实践脱离的现象,情报界也不例外。这些现象表现在哪些方面?原因何在?通过哪些举措可以拉近理论与实践的距离?这些问题值得探讨。
在调查总结的基础上,介绍了GIS在生态规划方面的应用概况,从景观格局分析、区域动态变化研究、统计图示分析三方面对生态规划的发展趋势作了展望,以更广泛地推广GIS技术在生态领
针对虚拟装配系统中存在仿真程度不够高的缺点,提出基于物理属性的虚拟装配过程研究。通过分析虚拟装配过程对零部件物理属性的需求,建立零部件物理属性模型,给出确定零部件各物
结合具体的工程实践,对其地质、现状、特点进行了分析,探讨了锚杆加钢筋网喷射混凝土的施工工艺,分析了锚固技术的应用效果,并对其发展趋势进行了展望.
本文以引文分析、共引分析、聚类分析和社会网络分析等方法为理论依据,通过Citespace、Bibexcel、Pajek和Ucinet等信息可视化工具,以公共卫生与预防医学学科为例,探讨信息可视化
本文以《情报学报》和Journal of Information Science两种期刊为例,分析了期刊作者群的新陈代谢现象及其规律。首先统计了作者的发文时长、发文速率和发文间隔的分布情况,然后
随着社会信息化发展的进程,科学研究的主导范式已由逻辑驱动的研究范式、实验驱动的研究范式转为数据驱动的研究范式。作为数据驱动的典型学科,情报学对数据的依赖尤为明显。从
基于简化标记和单元(Simplified marker and cell,SMAC)方法,发展一种在任意曲线坐标系中求解三维非定常不可压湍流Reynolds时均方程的隐式数值方法。控制方程包括以逆变速度为变