当前位置: 首页 > article >正文

【附代码】NumPy加速库NumExpr(大数据)

文章目录

    • 相关文献
    • 测试电脑配置
    • 数组加减乘除
    • 数组乘方
    • Pandas加减乘除
    • 总结

作者:小猪快跑

基础数学&计算数学,从事优化领域5年+,主要研究方向:MIP求解器、整数规划、随机规划、智能优化算法

如有错误,欢迎指正。如有更好的算法,也欢迎交流!!!——@小猪快跑

相关文献

  • NumExpr Documentation Reference — numexpr 2.8.5.dev1 documentation

测试电脑配置

博主三千元电脑的渣渣配置:

CPU model: AMD Ryzen 7 7840HS w/ Radeon 780M Graphics, instruction set [SSE2|AVX|AVX2|AVX512]
Thread count: 8 physical cores, 16 logical processors, using up to 16 threads

数组加减乘除

我们计算 2 * a + 3 * b,发现在数据量较大时候,NumExpr明显快于NumPy
在这里插入图片描述

import perfplot
from matplotlib import pyplot as plt
import numpy as np
import numexpr as ne


def numpy_add(a, b):
    return 2 * a + 3 * b


def numexpr_add(a, b):
    return ne.evaluate("2 * a + 3 * b")


if __name__ == '__main__':
    b = perfplot.bench(
        setup=lambda n: (np.random.rand(n), np.random.rand(n)),
        kernels=[
            numpy_add,
            numexpr_add,
        ],
        n_range=[2 ** k for k in range(25)],
        xlabel="length of DataFrame",
    )

    plt.figure(dpi=300)
    b.save(f"arr_add.png")
    b.show()

数组乘方

我们计算 2 * a + b ** 10,发现在数据量较大时候,NumExpr明显快于NumPy
在这里插入图片描述

import perfplot
from matplotlib import pyplot as plt
import numpy as np
import numexpr as ne


def numpy_power(a, b):
    return 2 * a + b ** 10


def numexpr_power(a, b):
    return ne.evaluate("2 * a + b ** 10")


if __name__ == '__main__':
    b = perfplot.bench(
        setup=lambda n: (np.random.rand(n), np.random.rand(n)),
        kernels=[
            numpy_power,
            numexpr_power,
        ],
        n_range=[2 ** k for k in range(25)],
        xlabel="length of DataFrame",
    )

    plt.figure(dpi=300)
    b.save(f"arr_power.png")
    b.show()

Pandas加减乘除

我们计算 (a + b) / (c - 1),发现在数据量较大时候,NumExpr明显快于Pandas

在这里插入图片描述

import pandas as pd
import perfplot
from matplotlib import pyplot as plt
from numpy.random._examples.cffi.extending import rng
import numexpr as ne


def pandas_add(df):
    return (df['A'] + df['B']) / (df['C'] - 1)


def numexpr_add(df):
    return df.eval('(A + B) / (C - 1)')


def numpy_arr_add(df):
    a = df['A'].values
    b = df['B'].values
    c = df['C'].values
    return (a + b) / (c - 1)


def numexpr_arr_add(df):
    a = df['A'].values
    b = df['B'].values
    c = df['C'].values
    return ne.evaluate("(a + b) / (c - 1)")


if __name__ == '__main__':
    b = perfplot.bench(
        setup=lambda n: pd.DataFrame(rng.random((n, 3)), columns=['A', 'B', 'C']),
        kernels=[
            pandas_add,
            numexpr_add,
            numpy_arr_add,
            numexpr_arr_add,
        ],
        n_range=[2 ** k for k in range(25)],
        xlabel="length of DataFrame",
    )

    plt.figure(dpi=300)
    b.save(f"pandas_add.png")
    b.show()

总结

总体来说在大数据下会有多倍的性能提升。但我们也容易观察到,就算10e8量级的数据,进行一次运算的时间也不超过1秒。一般计算次数多,数据量大,对速度有要求的场景下可以使用。


http://www.kler.cn/a/231738.html

相关文章:

  • 洛谷刷题1-3
  • Gin 学习笔记
  • Python collections模块中的 OrderedDict
  • SQL注入漏洞之基础数据类型注入 字符 数字 搜索 XX 以及靶场实例哟
  • MySQL查询LONG BLOB类型数据的大小
  • 【Rabbitmq】Rabbitmq高级特性-发送者可靠性
  • 【JavaScript】switch 语句
  • Quartus IP 之mif与hex文件创建与使用
  • Hive与Presto中的列转行区别
  • c实现顺序表
  • 解决IntellIJ Idea内存不足
  • 为电子表格嵌入数据库,Excel/WPS一键升级为管理系统
  • C++实现鼠标点击和获取鼠标位置(编译环境visual studio 2022)
  • 问题 | 开源软件的影响力
  • mybatis-plus循环处理多个条件的 or 查询
  • SQL,HQL刷题,尚硅谷
  • 【力扣】移动零,双指针法
  • 【开源】JAVA+Vue.js实现在线课程教学系统
  • 前端JavaScript篇之对闭包的理解
  • JSP页面组件
  • Vue事件中如何使用 event 对象
  • LRU和LFU有什么区别
  • .[hudsonL@cock.li].mkp勒索病毒数据怎么处理|数据解密恢复
  • 探索C语言中的联合体与枚举:数据多面手的完美组合!
  • 掌握虚拟化与网络配置之道:深入浅出VMware及远程管理技巧
  • 在Ubuntu上安装JetBrains Toolbox并解决libfuse.so.2依赖问题