论文部分内容阅读
如果你生活在香港,那么想找香港特区政府提意见、建议、投诉都很容易,有一个专门的热线是供你和香港特区政府沟通的,那就是1823政府热线电话。香港政府效率促进组的1823政府热线电话中心,是所有政府部门处理公众查询和投诉的惟一联系点。1823政府热线电话中心是不分节假日,一直有人值班。每年他们要处理大约265万个电话和9.8万封电子邮件,其中包括信息查询、意见建议和控告投诉等。
“我们收到了如此多的电话和电子邮件,其中包含巨大的信息量。接下来我们想要做的就是发挥这些数据的作用。”香港政府效率促进组的副主任W. F. Yuk说,“现在,有了SAS的文本数据挖掘技术,我们可以获得更深层次的信息,通过挖掘投诉信息字句关系后面隐藏的关系,洞悉即将出现的趋势和公众关注的问题,为我们政府部门提供更多高质量的投诉处理意见。”
1823政府热线借助文本数据挖掘技术实现了高效的工作,并对社会隐患起到了未雨绸缪的作用,那么,什么是文本数据挖掘技术呢?
什么是文本数据挖掘技术?
文本数据挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便可以进一步应用。
文本数据挖掘是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。文本数据挖掘是从数据挖掘技术发展而来的,但与传统的数据挖掘相比,文本数据挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式而且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本数据挖掘,即使可用,也需要建立在对文本集预处理的基础之上。文本数据挖掘技术过程可细化为以下三个步骤:
1.文本预处理:选取任务相关的文本并将其转化成文本数据挖掘工具可以处理的中间形式。
2.挖掘分析:在完成文本预处理后,可以利用机器学习、数据挖掘及模式识别等方法提取面向特定应用目标的知识或模式。
3.模式评估与表示:利用已经定义好的评估指标对获取的知识或模式进行评估。如果评估结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进,然后再进行新一轮的发现。
文本数据挖掘在商业智能、信息检索、生物信息处理等方面都有广泛的应用。例如,客户关系管理、自动邮件回复、垃圾邮件过滤、自动简历评审、搜索引擎等等。
采用文本数据挖掘技术的1823政府热线电话中心系统是一个智能化的处理系统,具有对潜在社会问题未雨绸缪、提供详尽的业绩报告、具备超强的语言和客户化服务处理能力、智能策略引导正确决策等特点。
构建投诉智能化处理系统
香港政府效率促进组的目标是要成为香港所有政府部門的首选咨询合作伙伴,并为香港人民提供公众服务。这个部门在2001年成立了1823政府热线电话中心,它的一个主要功能是处理公众投诉——去年,该中心收到的电话中,有10%都是投诉。香港政府效率促进组认识到,这些投诉信息背后,还隐含着很多的社会问题,可以为公共服务部门提供重要的反馈信息,并为改进服务提供很好的机会。因此,他们不能仅仅是简单地处理、回复这些电话和电子邮件,还需要研究收集到的投诉信息,为政府部门对公众提出更好的日常服务提出更好的建议。
“以前,我们也会提供一些投诉信息的统计报告,为其他政府部门提供参考建议,”Yuk说,“然而,只是通过人工的观察,显然很难有效地发现新的或者更深层次的潜在公众问题,也难以分辨出其根本原因。这是因为大多数的投诉信息,都是以非结构化的文本格式保存的。”
因此,他们需要建立一个平台,被称之为“投诉智能处理系统”,需要一个自动化和强健的文本处理与数据挖掘解决方案,以便能够发现在投诉建议中包含的各种趋势、模式和关系。SAS文本挖掘工具应运而生。
香港政府效率促进组选择部署的是SAS文本挖掘工具,它可以访问和分析不同格式的文本,包括1823政府热线电话中心所收到的电子邮件。“这个解决方案将所有的信息都集中起来,通过统计建模分析,发掘潜在的关系,”Yuk说,“它帮助我们发现隐藏的社会问题,以便政府部门能够在问题变得严重之前发现处理这些问题,因此可以把握改善服务的机会。”
有了文本分析工具,他们就可以更好地发现潜在的问题,并快速解决问题,以免情形发展到更糟糕。部门的高管还可以通过这个投诉智能处理系统访问到准确而及时的信息。
有了SAS的业务分析平台,香港政府效率促进组就可以从中及时地生成业绩报告。例如,以前需要花费一周时间才能得到一些关键绩效指标的报告,如:呼叫放弃率、客户满意率和首次投诉解决率。如今,这些报告只要在绩效仪表盘上点击一下鼠标就可以生成了,这是因为所有的投诉信息都被集中到了投诉智能处理系统。这使1823政府热线电话中心的运营和服务质量的有效监控提升了一个档次。
对于香港而言,SAS文本数据挖掘工具具有的超强语言处理能力尤其重要,因为在香港,公众可能使用英语、繁体中文和简体中文,而SAS文本数据挖掘工具可以同时支持这三种语言,并且可以执行自动拼写纠错。同样,SAS还能够处理用户自定义的词义列表,例如将各个政府部门的全称和简称对应,根据中文使用的上下文,识别在不同语境使用时的具体含义。
“同样,通过这个4个月的项目,SAS已经成为了我们可以信赖的合作伙伴,”Yuk说,“我们对SAS香港支持团队提供的有力支持感到非常满意。”
“使用SAS文本挖掘工具,1823政府热线电话中心就能够快速发现投诉中一些关键词之间的联系,”Yuk说,“我们可以判断出收到的建议是属于哪些常见类型的,例如和公共健康问题相关的,在住宅区发现有死亡的小鸟之类。然后,我们就能够将这些信息传递给相关的政府部门或者管理公司,让他们能够调配恰当的资源来迅速执行清理工作,以免造成潜在的传染病情。”
“公众的观点对政府而言无疑是至关重要的,”Yuk说,“通过分析投诉数据和根本原因,得到的信息可以帮助政府更好地理解人民的呼声,帮助政府部门改善服务质量,制定有力的决策和智能的策略。同时,这也会反过来帮助公众提升对政府的满意度,建立起一个优质的城市。”
“我们收到了如此多的电话和电子邮件,其中包含巨大的信息量。接下来我们想要做的就是发挥这些数据的作用。”香港政府效率促进组的副主任W. F. Yuk说,“现在,有了SAS的文本数据挖掘技术,我们可以获得更深层次的信息,通过挖掘投诉信息字句关系后面隐藏的关系,洞悉即将出现的趋势和公众关注的问题,为我们政府部门提供更多高质量的投诉处理意见。”
1823政府热线借助文本数据挖掘技术实现了高效的工作,并对社会隐患起到了未雨绸缪的作用,那么,什么是文本数据挖掘技术呢?
什么是文本数据挖掘技术?
文本数据挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便可以进一步应用。
文本数据挖掘是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。文本数据挖掘是从数据挖掘技术发展而来的,但与传统的数据挖掘相比,文本数据挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式而且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本数据挖掘,即使可用,也需要建立在对文本集预处理的基础之上。文本数据挖掘技术过程可细化为以下三个步骤:
1.文本预处理:选取任务相关的文本并将其转化成文本数据挖掘工具可以处理的中间形式。
2.挖掘分析:在完成文本预处理后,可以利用机器学习、数据挖掘及模式识别等方法提取面向特定应用目标的知识或模式。
3.模式评估与表示:利用已经定义好的评估指标对获取的知识或模式进行评估。如果评估结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进,然后再进行新一轮的发现。
文本数据挖掘在商业智能、信息检索、生物信息处理等方面都有广泛的应用。例如,客户关系管理、自动邮件回复、垃圾邮件过滤、自动简历评审、搜索引擎等等。
采用文本数据挖掘技术的1823政府热线电话中心系统是一个智能化的处理系统,具有对潜在社会问题未雨绸缪、提供详尽的业绩报告、具备超强的语言和客户化服务处理能力、智能策略引导正确决策等特点。
构建投诉智能化处理系统
香港政府效率促进组的目标是要成为香港所有政府部門的首选咨询合作伙伴,并为香港人民提供公众服务。这个部门在2001年成立了1823政府热线电话中心,它的一个主要功能是处理公众投诉——去年,该中心收到的电话中,有10%都是投诉。香港政府效率促进组认识到,这些投诉信息背后,还隐含着很多的社会问题,可以为公共服务部门提供重要的反馈信息,并为改进服务提供很好的机会。因此,他们不能仅仅是简单地处理、回复这些电话和电子邮件,还需要研究收集到的投诉信息,为政府部门对公众提出更好的日常服务提出更好的建议。
“以前,我们也会提供一些投诉信息的统计报告,为其他政府部门提供参考建议,”Yuk说,“然而,只是通过人工的观察,显然很难有效地发现新的或者更深层次的潜在公众问题,也难以分辨出其根本原因。这是因为大多数的投诉信息,都是以非结构化的文本格式保存的。”
因此,他们需要建立一个平台,被称之为“投诉智能处理系统”,需要一个自动化和强健的文本处理与数据挖掘解决方案,以便能够发现在投诉建议中包含的各种趋势、模式和关系。SAS文本挖掘工具应运而生。
香港政府效率促进组选择部署的是SAS文本挖掘工具,它可以访问和分析不同格式的文本,包括1823政府热线电话中心所收到的电子邮件。“这个解决方案将所有的信息都集中起来,通过统计建模分析,发掘潜在的关系,”Yuk说,“它帮助我们发现隐藏的社会问题,以便政府部门能够在问题变得严重之前发现处理这些问题,因此可以把握改善服务的机会。”
有了文本分析工具,他们就可以更好地发现潜在的问题,并快速解决问题,以免情形发展到更糟糕。部门的高管还可以通过这个投诉智能处理系统访问到准确而及时的信息。
有了SAS的业务分析平台,香港政府效率促进组就可以从中及时地生成业绩报告。例如,以前需要花费一周时间才能得到一些关键绩效指标的报告,如:呼叫放弃率、客户满意率和首次投诉解决率。如今,这些报告只要在绩效仪表盘上点击一下鼠标就可以生成了,这是因为所有的投诉信息都被集中到了投诉智能处理系统。这使1823政府热线电话中心的运营和服务质量的有效监控提升了一个档次。
对于香港而言,SAS文本数据挖掘工具具有的超强语言处理能力尤其重要,因为在香港,公众可能使用英语、繁体中文和简体中文,而SAS文本数据挖掘工具可以同时支持这三种语言,并且可以执行自动拼写纠错。同样,SAS还能够处理用户自定义的词义列表,例如将各个政府部门的全称和简称对应,根据中文使用的上下文,识别在不同语境使用时的具体含义。
“同样,通过这个4个月的项目,SAS已经成为了我们可以信赖的合作伙伴,”Yuk说,“我们对SAS香港支持团队提供的有力支持感到非常满意。”
“使用SAS文本挖掘工具,1823政府热线电话中心就能够快速发现投诉中一些关键词之间的联系,”Yuk说,“我们可以判断出收到的建议是属于哪些常见类型的,例如和公共健康问题相关的,在住宅区发现有死亡的小鸟之类。然后,我们就能够将这些信息传递给相关的政府部门或者管理公司,让他们能够调配恰当的资源来迅速执行清理工作,以免造成潜在的传染病情。”
“公众的观点对政府而言无疑是至关重要的,”Yuk说,“通过分析投诉数据和根本原因,得到的信息可以帮助政府更好地理解人民的呼声,帮助政府部门改善服务质量,制定有力的决策和智能的策略。同时,这也会反过来帮助公众提升对政府的满意度,建立起一个优质的城市。”