您的位置 首页 > 会计论文 > 审计论文

聚类分析在内部审计中的应用研究

[摘 要] 聚类分析的目的是将收集到的数据按照某一特征进行分类,形成相似元素的集合。在内部审计中的应用是通过收集各个业务领域的数据,运用聚类分析,发现同类数据间的差距,根据差异分析出疑点数据,从而提出审计意见,解决了传统审计管理效率低、实施难等问题。实验结果表明,通过该算法能够快速高效地发现各业务领域的疑点数据,为审计工作提供了依据和新的方式,提高了工作效率和收益。

[关键词] 聚类分析;k-means算法;疑点数据;内部审计

0 引 言

聚类分析应用于医学、市场分析、信息安全、金融等多个领域。目前,在内部审计中的应用主要是在企业和同业间的差距分析,很少针对业务数据存在的问题进行分析,传统的内部审计限于单一的看账、查账,难以发现数据底层的潜在问题,为了让内部审计有一个质的提升,采用聚类对业务数据进行分析与挖掘去发现深层次的问题,所以面对不同的业务数据采用不同的分析手段成为当前研究的热点与难题,但很少在内部审计方面应用。本文针对内部审计的业务数据采用k-means聚类方法对业务数据进行分析,并取得了不错的结果,填补了对内部审计业务数据分析的空白。

1 聚类分析的原理及分类

1.1 聚类分析的原理

聚类分析的基本原理是,根据对象自身属性,运用统计方法根据某种差异性和相似性,得到对象间的相似性关系,按照相似性关系对对象进行分组聚类,可能提供多个分析结果解,需要根据实际情况提供主观判断和后续的分析。

1.2 聚类分析的分类

目前聚类方式有三类:一是系统聚类,用于对小样本的对象间聚类以及对变量聚类。二是有序样品聚类,对有排序次序的样本的对象间聚类,要求是次序相邻的对象才能聚为一类。三是动态聚类,适用于样本量大时对象间的聚类,一般用k-means法处理。由于内部审计一般依靠历史数据,提出有价值的工作建议,所以由于涉及内部审计的业务数据量较大,所以本文采用第三种聚类分析方式。

2 聚类方法k-means算法

2.1 k-means算法基本原理

k指的是将数据集分为簇的个数,means指的是簇内对象的均值。如果簇内的相似性越大,簇间的差别性越大,那么聚类效果就越好。相似度是根据聚类对象的平均值进行计算,其算法步骤如下:

(1)从数据集中任意选取k个点作为初始质心,即每个簇的均值,其中,质心的计算方法是:除去第一次质心手动指定外,以后的质心都是由计算均值获得。

(2)根据数据点到质心的距离将剩余的每个对象收归到最近的质心所在的簇中。

(3)根据分类结果重新计算每个簇(有变化)的质心或平均值。重复进行(2)、(3)步骤,直到质心不再改变,即准则算法函数收敛,采用平方误差准则:

2.2 k-means过程示意图

2.3 k-means算法优缺点分析

k-means算法的时间复杂度为:O(nkt)。其中,k指聚类簇数,t指迭代次数,n指对象数,所以对于处理大数据集时,具有高效性,而且实现方式简单、快速。通过实验表明,k-means对于处理簇接近高斯分布时,效果更好。因为k-means需要事先指定k作為初始质心,对k的选取会导致不同的分析结果,所以对于一些事先需要分类的数据分析效果不好,影响最终分析结果。对“噪声”和孤立点数据较为敏感,容易对均值产生较大影响,且分析只能保证局部最优,不能保证全局最优。

3 内部审计的应用

3.1 R语言实现k-means算法

由于内部审计涉及的营销、财务等多个业务,所以本文针对以红河建水居民用电量为例子使用R语言实现k-means算法进行分析,来体现聚类算法在内部审计中的应用。具体实现流程如下。

3.1.1 标准化处理

分析数据可能存在量纲不同的情况,如体重和身高,它们量纲不同,体重可能在40-60kg间,身高可能在140-170cm之间,那么就需要进行数据标准化处理。若直接用原数据分析,可能会加强数值较高的指标在分析结果的作用,削弱数值较低的指标在分析结果的作用。数据标准化公式:

3.1.2 轮廓系数

3.2 实验结果

经过k-means聚类分析得到疑点数据表(见表1)。

从疑点数据表中可知:在重度用电客户簇中,有一个疑点用户,在轻度用电客户簇中有9个疑点用户都可能存在偷电等情况的发生。经过实际有关人员对这些用户的调查,确实发现存在问题。实验结果表明该算法能够为内部审计提供审计依据,提高了工作效率。

4 结 论

聚类分析算法在内部审计涉及数据分析与挖掘方面都可能用到,传统的内部审计的分析都是通过Excel、SQL等方式进行分析,对于复杂且数据量大的数据分析过程会变得相对复杂,而使用R语言实现的聚类分析能够快速高效地得出分析结果。为审计人员提供了直接、高效的审计依据。本文主要是针对大工业用电的电费与电量进行分析,证明算法的简单、高效与实用性强,但只考虑了接近高斯分布类型的数据,在实际应用中,会涉及不同的数据类型,有很多针对不同数据类型的改进算法,需要进一步研究。

主要参考文献

[1]方匡南。基于数据挖掘的分类和聚类算法研究及R语言实现[D].广州:暨南大学,2007.

热门文章