论文部分内容阅读
在众多的社会学研究方法中,调查是一种运用最多的从某一主题收集数据的方法。随着组织、大学和个人对互联网的广泛使用,基于互联网的网络调查方法逐渐变得流行。相对传统的调查方法,网络调查使得整个调查过程更加容易,而且问卷信息的分发可以在短时间之内完成,数据也可在较低的成本下获取并直接在计算机上得到处理。本文主要讨论了网络调查数据问题及由无回答造成的遗漏数据的补齐算法,在此基础上构建了网络调查系统,并运用该系统进行实证研究。本文结合抽样调查理论,分析了网络调查的数据问题来源与类型,对数据问题进行了统计计量,并以此为基础讨论了网络调查数据预处理的对象及其方法。本文着重以数据挖掘中决策树分类理论和粗糙集理论为指导,全面深入的讨论了基于ID3算法的遗漏数据补齐算法和基于粗糙集的ROUSTIDSA算法,分析了两种算法在网络调查遗漏数据补齐方面的不足,进而提出了基于粗糙集的k-相似矩阵遗漏数据补齐算法(简称k-SM算法),该算法是对ROUSTIDSA算法的改进,考虑了决策属性的遗漏及其补齐,有效地解决了补齐后引起的决策冲突问题。以上述研究为基础,结合网络调查的特点和调查者对网络调查系统的需求,设计并开发了一套通用的网络调查系统(www.netsurvey.cn,Netsurvey系统)。该系统能够全面实现对问卷的创建、管理、发布和描述性统计量分析等功能,同时重点实现了基于ID3算法的遗漏数据补齐算法和k-SM算法。本文运用Netsurvey系统进行的实证研究分两步进行。第一步主要考察网络调查方法与传统调查方法对被访者的影响;第二步主要考察Netsurvey系统中两种算法的数据预处理效果。实证结果表明:1)网络调查在项目无回答方面,效果明显优于传统的印刷调查;2)各种题型(填空题、单选题、多选题)以及不同性质(行为问题和态度问题)的题目,两种方法对被访者来说没有本质上的区别,即不管通过哪种调查方法接受调查,被访者都能反应其相同的意愿;3)对长短填空题的回答数据分析表明,题目样式的微小变化,不管是网络调查还是传统的印刷调查,对被访者的影响是明显的;4)基于ID3算法的遗漏数据补齐算法相对于k-SM算法的补齐效果较劣,并且前者的时间复杂度较高。我国对网络调查的研究还处于起步阶段,而且大多是描述性的定性研究。本文的研究工作囊括了从定性分析到定量的实证研究,以期该研究能对我国网络调查的应用和发展起到积极推动作用。