当前位置: 首页 > article >正文

数据科学与SQL:如何利用本福特法则识别财务数据造假?

目录

0 本福特法则介绍

1 数据准备 

 2 问题分析

步骤1:提取首位数:

步骤2:计算首位数字的实际频率分布

步骤3:比较实际频率与本福特法则理论频率(最终判断)

3 小结


0 本福特法则介绍

  • 本福特法则(Benford's Law)指出,在许多自然产生的数字数据集中,首位数字(最左边的非零数字)出现的概率不是均匀分布的。具体来说,数字 1 作为首位数字出现的概率约为 30.1%,数字 2 出现的概率约为 17.6%,数字 3 约为 12.5%,以此类推,数字 9 出现的概率约为 4.6%。这种分布规律在各种数据场景如财务数据、人口统计数据等中广泛存在。当数据不符合本福特法则的预期分布时,可能意味着数据存在异常,例如数据造假、数据录入错误等。

1 数据准备 

-- 创建表
CREATE TABLE financial_data (
    id INT,
    amount DECIMAL(20, 2)
);

-- 插入示例数据
INSERT INTO financial_data VALUES
(1, 1234.56),
(2, 2345.67),
(3, 345.67),
(4, 4567.89),
(5, 567.89),
(6, 678.90),
(7, 789.01),
(8, 890.12),
(9, 901.23),
(10, 1012.34),
(11, 1123.45),
(12, 2234.56),
(13, 3345.67),
(14, 4456.78),
(15, 5567.89),
(16, 6678.90),
(17, 7789.01),
(18, 8890.12),
(19, 9901.23),
(20, 100.00);

 2 问题分析

步骤1:提取首位数:

使用 Hive 中的函数来提取每个财务数据金额的首位数字,将其作为一个新的字段,方便后续统计分析。这里使用substrcast函数实现提取,并使用count分析函数结合over子句计算总记录数。

-- 提取首位数字并添加总记录数列(用于后续计算频率)
SELECT
    id,
    amount,
    -- 通过转换为字符串后取第一个字符,再转回数字类型来获取首位数字
    CAST(SUBSTR(CAST(amount AS STRING), 1, 1) AS INT) AS first_digit,
    COUNT(*) OVER () AS total_count
FROM financial_data;

 

idamountfirst_digittotal_count
11234.56120
22345.67220
3345.67320
44567.89420
5567.89520
6678.90620
7789.01720
8890.12820
9901.23920
101012.34120
111123.45120
122234.56220
133345.67320
144456.78420
155567.89520
166678.90620
177789.01720
188890.12820
199901.23920
20100.00120

在这个中间结果集中,我们不仅提取出了首位数字,还通过分析函数计算出了数据的总记录数,为后续计算每个首位数字的频率做准备。

步骤2:计算首位数字的实际频率分布

利用分析函数count结合partition by来对首位数字进行分组统计出现次数,再结合前面得到的总记录数计算频率,这样无需嵌套子查询来分组统计和计算频率。 

-- 计算首位数字的频率分布
SELECT
    first_digit,
    COUNT(*) AS digit_count,
    -- 计算频率,每个首位数字出现的次数除以总记录数
    COUNT(*) / total_count AS frequency
FROM (
    SELECT
        id,
        amount,
        CAST(SUBSTR(CAST(amount AS STRING), 1, 1) AS INT) AS first_digit,
        COUNT(*) OVER () AS total_count
    FROM financial_data
) subquery
GROUP BY first_digit, total_count;
first_digitdigit_countfrequency
160.3
230.15
320.1
420.1
520.1
620.1
710.05
810.05
910.05

这里展示了每个首位数字在我们的财务数据样本中出现的实际次数以及对应的频率,接下来就可以将这些实际频率与本福特法则的理论频率进行对比了。

步骤3:比较实际频率与本福特法则理论频率(最终判断)

本福特法则中首位数字 1 - 9 的理论概率分别为约 30.1%(0.301)、17.6%(0.176)、12.5%(0.125)、9.7%(0.097)、7.9%(0.079)、6.7%(0.067)、5.8%(0.058)、5.1%(0.051)、4.6%(0.046)。我们将实际频率与这些理论频率进行对比,通过计算差异等方式来判断是否存在异常,这里简单通过查看频率差异较大的首位数字来初步判断(实际应用中可结合更严格的统计检验方法)。

-- 定义本福特法则理论频率表(这里简单示例,可根据更精确要求完善)
CREATE TABLE benford_expected_frequencies (
    first_digit INT,
    expected_frequency DECIMAL(5, 3)
);

INSERT INTO benford_expected_frequencies VALUES
(1, 0.301),
(2, 0.176),
(3, 0.125),
(4, 0.097),
(5, 0.079),
(6, 0.067),
(7, 0.058),
(8, 0.051),
(9, 0.046);

-- 连接实际频率表和理论频率表,计算频率差异并判断异常(这里简单以较大差异判断,实际可细化标准)
SELECT
    actual.first_digit,
    actual.digit_count,
    actual.frequency,
    expected.expected_frequency,
    -- 计算实际频率与理论频率的差值绝对值
    ABS(actual.frequency - expected.expected_frequency) AS frequency_difference
FROM (
    SELECT
        first_digit,
        COUNT(*) AS digit_count,
        COUNT(*) / total_count AS frequency
    FROM (
        SELECT
            id,
            amount,
            CAST(SUBSTR(CAST(amount AS STRING), 1, 1) AS INT) AS first_digit,
            COUNT(*) OVER () AS total_count
        FROM financial_data
    ) subquery
    GROUP BY first_digit, total_count
) actual
JOIN benford_expected_frequencies expected ON actual.first_digit = expected.first_digit
WHERE ABS(actual.frequency - expected.expected_frequency) > 0.05; -- 可根据实际调整差异阈值
first_digitdigit_countfrequencyexpected_frequencyfrequency_difference
160.30.3010.001
230.150.1760.026
710.050.0580.008

在这个简单示例中,我们看到首位数字 2 和 7 的实际频率与理论频率差异相对较大(这里以大于 0.05 作为简单判断阈值,实际需更严谨评估),这可能提示对应的数据存在异常情况,但还需要结合更多的财务背景知识、其他分析方法等来综合判断是否存在财务数据造假的情况,毕竟数据的差异可能由多种合理原因导致,不能仅凭此就下定论。

3 小结

本福特法则计算步骤及思路如下: 

提取首位数字的过程

  • 将数值转换为字符格式(如果需要)
    • 在许多编程语言和数据库环境中,首先要将数值型数据转换为字符型数据,这样才能方便地提取首位数字。例如,在 Python 中,如果数据存储在一个列表data_list中,使用str()函数将每个数值转换为字符串:string_data = [str(i) for i in data_list]
    • 在 SQL 中,也有类似的函数用于数据类型转换。以 MySQL 为例,使用CAST()函数,如CAST(numeric_column AS CHAR)(假设numeric_column是存储数值的列)。
  • 提取首位数字
    • 对于转换为字符格式的数据,使用字符串操作函数来提取首位数字。在 Python 中,可以使用索引操作来提取字符串的第一个字符,例如first_digits = [int(i[0]) for i in string_data],这里将提取的字符再转换为整数类型并存入first_digits列表。
    • 在 SQL 中,使用SUBSTR()(不同数据库可能函数名略有不同,如SUBSTRING())函数来提取子串。例如,在 Oracle 中可以使用SUBSTR(CAST(numeric_column AS VARCHAR2), 1, 1)来提取数值列numeric_column转换为字符后的第一个字符,再通过CAST()将提取的字符转换回数字类型。

计算首位数字的频率分布

  • 统计首位数字的出现次数
    • 在编程语言中,通常使用数据结构来统计每个首位数字的出现次数。例如,在 Python 中,可以使用字典来实现。初始化一个空字典digit_count = {},然后遍历提取的首位数字列表first_digits,对于每个数字,如果它已经在字典中,就将其对应的计数加 1,否则将其添加到字典中并设置计数为 1,如for digit in first_digits: if digit in digit_count: digit_count[digit]+=1 else: digit_count[digit] = 1
    • 在数据库中,使用GROUP BYCOUNT()函数来实现分组统计。例如,在 SQL 中,查询语句可能是SELECT first_digit, COUNT(*) AS count FROM (SELECT CAST(SUBSTR(CAST(numeric_value AS CHAR), 1, 1) AS UNSIGNED) AS first_digit FROM data_table) subquery GROUP BY first_digit(假设data_table是包含数据的表,numeric_value是数值列)。
  • 计算频率
    • 计算每个首位数字的频率,即每个首位数字的出现次数除以数据的总个数。在 Python 中,计算总个数可以使用len(data_list),然后对于字典digit_count中的每个键值对,计算频率frequency = {k: v/len(data_list) for k, v in digit_count.items()}
    • 在数据库中,在前面统计出现次数的查询基础上,通过子查询或者其他方式计算总记录数。例如,在 SQL 中可以修改前面的查询为SELECT first_digit, COUNT(*) AS count, COUNT(*)/ (SELECT COUNT(*) FROM data_table) AS frequency FROM (SELECT CAST(SUBSTR(CAST(numeric_value AS CHAR), 1, 1) AS UNSIGNED) AS first_digit FROM data_table) subquery GROUP BY first_digit

比较实际频率与本福特法则理论频率

  • 确定本福特法则理论频率值
    • 根据本福特法则,首位数字 1 - 9 的理论概率分别约为 30.1%(0.301)、17.6%(0.176)、12.5%(0.125)、9.7%(0.097)、7.9%(0.079)、6.7%(0.067)、5.8%(0.058)、5.1%(0.051)、4.6%(0.046)。可以将这些理论频率值存储在一个数组或者表格结构中,方便后续比较。例如,在 Python 中可以创建一个字典benford_frequencies = {1:0.301, 2:0.176, 3:0.125, 4:0.097, 5:0.079, 6:0.067, 7:0.058, 8:0.051, 9:0.046}
  • 比较分析
    • 逐个比较实际频率和理论频率。可以通过计算差值(实际频率 - 理论频率)或者差值的绝对值来观察差异程度。在 Python 中,可以遍历实际频率字典和理论频率字典,计算差值,如for digit in digit_count.keys(): difference = abs(digit_count[digit] - benford_frequencies[digit])
    • 除了简单的差值比较,还可以使用统计检验方法来更科学地判断实际频率和理论频率之间的差异是否显著。例如,卡方检验是一种常用的方法。卡方值的计算公式为,其中是实际观测值(实际频率),是理论期望值(理论频率)。在 Python 中,可以使用scipy.stats库中的chisquare函数来进行卡方检验,如from scipy.stats import chisquare; observed = [digit_count[i] for i in range(1, 10)]; expected = [benford_frequencies[i]*len(data_list) for i in range(1, 10)]; chisquare(observed, f_exp = expected)

结果解读与决策

  • 判断数据是否异常
    • 如果实际频率与理论频率的差异较小,或者通过统计检验没有发现显著差异,那么数据在首位数字分布上基本符合本福特法则,数据可能是正常的。
    • 如果差异较大,尤其是在多个首位数字上都出现明显差异,或者统计检验显示差异显著,那么数据可能存在异常情况。但这并不绝对意味着数据造假,可能是数据本身的特殊性导致的,如数据集中在某个特定的范围(例如,公司的大部分交易金额都在某个固定区间内)或者受到特殊业务模式的影响。
  • 综合考虑其他因素
    • 即使首位数字分布异常,也不能仅凭此就判定财务数据造假。需要结合其他财务分析工具和方法,如比率分析(如偿债比率、盈利比率等)、趋势分析(观察财务数据在多个期间的变化趋势是否合理)、审计线索(如是否存在异常的交易对手、不合规的审批流程等)以及行业特点和公司经营策略等来综合判断。例如,如果首位数字分布异常且同时发现公司有财务压力、业绩考核不合理等情况,那么财务数据造假的嫌疑可能会增加。

如果您觉得本文还不错,对你有帮助,那么不妨可以关注一下我的数字化建设实践之路专栏,这里的内容会更精彩。

专栏 原价99,现在活动价59.9,按照阶梯式增长,还差5个人上升到69.9,最终恢复到原价

专栏优势:
(1)一次收费持续更新。

(2)实战中总结的SQL技巧,帮助SQLBOY 在SQL语言上有质的飞越,无论你应对业务难题及面试都会游刃有余【全网唯一讲SQL实战技巧,方法独特】

SQL很简单,可你却写不好?每天一点点,收获不止一点点-CSDN博客 

(3)实战中数仓建模技巧总结,让你认识不一样的数仓。【数据建模+业务建模,不一样的认知体系】(如果只懂数据建模而不懂业务建模,数仓体系认知是不全面的

(4)数字化建设当中遇到难题解决思路及问题思考。

我的专栏具体链接如下

 数字化建设通关指南_莫叫石榴姐的博客-CSDN博客 


http://www.kler.cn/a/443291.html

相关文章:

  • [免费]微信小程序(高校就业)招聘系统(Springboot后端+Vue管理端)【论文+源码+SQL脚本】
  • WEB前端-2
  • 功能篇:mybatis中实现缓存
  • 【CSS】设置滚动条样式
  • 【博主推荐】 Microi吾码开源低代码平台,快速建站,提高开发效率
  • pg数据库运维经验2024
  • C++实现最大字段和
  • 简易分页制作
  • 大数据分析案例-基于XGBoost算法构建笔记本电脑价格预测模型
  • 【JAVA】JAVA接口公共返回体ResponseData封装
  • 点击展示大图预览
  • 易语言OCR证件照文字识别
  • 在 Mac M1 上使用 Docker 运行 Jenkins
  • [IT项目管理]九.项目质量管理
  • 联表查询相关语法
  • 梯度(Gradient)和 雅各比矩阵(Jacobian Matrix)的区别和联系:中英双语
  • rabbitMq的status报错Error: unable to perform an operation on node ‘rabbit……
  • WebRTC搭建与应用(一)-ICE服务搭建
  • DevExpress WinForms中文教程:Grid View - 如何实现固定列?
  • AndroidStudio XML不识别自定义控件
  • 【计算机毕设】基于Python预制菜可视化数据分析预测推荐系统(完整系统源码+数据库+详细部署教程)✅
  • 经典电荷泵/Charge pump——1998.JSSC
  • SLAAC如何工作?
  • Windows系统如何配置远程音频
  • 【自动化部署】Ansible循环
  • Java线程状态详解