R和Python数据格式的通用性
pkl是适用于python之间的传输;
Rdata之类的只用于R之间的传输;
想将R中的数据输出,使的python易于读取:
优先选择的数据格式是Apache Arrow所定义的数据格式,即Parquet和Feather。
- Parquet:Parquet 文件格式被设计用于最大化存储空间的利用率,采用了先进的压缩和编码技术。它非常适合在存储大量数据时尽量减少磁盘使用空间。Parquet 文件通常比较小,因为它使用了列式存储和高效的压缩策略。然而,读取 Parquet 文件需要相对复杂的解码过程,并且数据不能直接操作,而是需要以大块进行解码。因此,Parquet 文件适合于长期存储和归档目的,即使在未来几年也能被广泛支持的系统读取。
- Feather:Feather 文件格式最初是为了在 Arrow 文件格式开发之前,简化存储 Arrow 格式的一部分数据而设计的。现在,“Feather version 2” 实际上就是 Arrow IPC 文件格式。Feather 文件格式保留了 Feather 名称和 API 以确保向后兼容性。与 Parquet 相比,Feather 文件更注重数据的直接读写和处理效率。Feather 文件格式中的数据与内存中的数据表示相同,因此读取 Feather 文件时无需解码,可以直接进行访问,从而提高了读写速度和操作效率。
总结:Parquet 适合长期存储和归档,而 Feather 则更适用于数据的直接读写和操作,特别是在计算任务中的实时数据处理。