搜档网
当前位置:搜档网 › 审计大数据下模糊匹配审计证据获取方法研究

审计大数据下模糊匹配审计证据获取方法研究

收稿日期:2017年10月20日,修回日期:2017年11月28日

基金项目:国家自然科学基金项目《基于多特征融合的自发表情识别研究》(编号:61672199);国家自然科学基金项目《自然和谐的人机交互中人脸表情识别研究》(编号:61100100)资助。作者简介:林俊,男,工程师,研究方向:电力信息化建设、信息安全、物资供应链管理。方宽,男,广东广州人,工程师,研究方向:电力信息化建设、数据挖掘。?

1引言

审计对象的信息化展使计算机辅助审计成为

必然,而数据查询抽样、统计分析等[1]常用方法多是把手工的审计流程计算机化,没有充分利用先进的信息技术,不能提取隐藏的或未知的信息。随着企业业务数据量的增大,被审计数据呈海量增长,已建立起TB 甚至PB 级的大数据库[1]。巨大的审计数据量,仅靠先验知识和传统经验流程难以充分发挥大数据优势。因此探索适用于审计大数据的新方法来提炼审计证据具有重要的理论和应用价值。

模糊匹配通过对不同数据源中的数据进行相似性比较,能够搜索出不同数据源中相似重复实体[2]。尽管模糊匹配应用较多[3],如Monge [4]等基于模糊匹配对同一数据源中的相似重复记录进行清理,张家俊[5]等在字母和音字转换基础上对维吾尔语人名进行模糊匹配和识别,孙怡帆[6]等利用模糊匹配技术揭示网络内在的社区结构,吴海涛[7]等基于模糊匹配策略实现中文地址编码的自动识别。但模糊匹配直接应用于审计中的研究不常见[8],而在大数据审计环境下,数据源分散,不同企业的被审计数据相关性不大,因而不同数据源不应该出现

审计大数据下模糊匹配审计证据获取方法研究

?

(广东电网有限责任公司

广州

510030)

针对大数据审计面临的运行效率和审计证据有效获取问题,在分析得到不同数据源中的相似重新审计数据可

能为舞弊数据的基础上,提出一种基于模糊匹配的审计证据获取方法,首先通过引入位置参数改进外存倒排索引结构,并采用非对称查询模式自适应地选择待匹配数据,实现审计大数据表格公共字段的快速模糊匹配,保证了算法在大数据下的运行效率,其次在公共字段匹配基础上,对字段内数据进一步进行相似性判断,从而发现相似审计舞弊数据,获得审计证据。实验结果表明,算法保证了审计证据的有效获取,减少了数据处理的运行时间,提高了数据处理的效率。

关键词

审计证据获取;模糊匹配;外存倒排索引;编辑距离

中图分类号

TP393.0

DOI :10.3969/j.issn.1672-9722.2018.04.026

Evidence Acquisition of Large Audit Data based on Fuzzy Matching

LIN Jun

FANG Kuan

(Guangdong Power Grid Co.,Ltd.,Guangzhou

510030)

Abstract

Aiming at the operating efficiency of large audit data and the effective acquisition of audit evidence ,based on this

analysis of that similar audit data in different data sources may be fraudulent data ,a method of obtaining audit evidence based on

fuzzy matching is proposed.In this method ,by introducing location parameters to improved memory inverted index structure ,and

using asymmetric query mode to adaptively select the data to be matched ,fast fuzzy matching for public fields of large audit data is realized firstly ,and then ,on the basis of public field matching ,the similarity of the data in the public fields is further judged ,by which the similar audit fraud data can be found and audit evidence can be obtained.Experiments results show that the proposed algo -rithm ensures the effective acquisition of audit evidence ,reduces the running time of data processing ,improves the efficiency of da -ta processing.

Key Words

audit evidence obtaining ,fuzzy matching ,external memory inverted index ,edit distance Class Number

TP393.0

万方数据

相关主题