F3:面向未来的开源数据文件格式
《Proceedings of the ACM on Management of Data》:F3: The Open-Source Data File Format for the Future
【字体:
大
中
小
】
时间:2025年11月07日
来源:Proceedings of the ACM on Management of Data
编辑推荐:
F3是一种新一代开源文件格式,以互操作性、可扩展性和高效性为核心,通过内置Wasm解码器解决传统格式兼容性问题,实验表明其性能优于现有格式。
摘要
列式存储格式是现代数据分析系统的基础。开源文件格式(如Parquet、ORC)的普及使得数据能够在不同的平台上无缝共享。然而,这些格式是在十多年前为当时的硬件和工作负载环境设计的,与当今的环境有很大差异。尽管这些格式已经对规范进行了一些更新以适应这些变化,但并非所有系统都支持这些修改,而且很多时候,系统无法在不进行重新设计的情况下克服这些格式的缺陷和局限性。
在本文中,我们介绍了面向未来的开源文件格式项目——F3。F3以互操作性、可扩展性和效率为核心设计原则,避免了每次数据处理和计算方式发生变化时都需要创建新格式的问题。它提供了一个数据组织结构和通用API,使开发者能够轻松添加新的编码方案。每个自描述的F3文件既包含数据也包含元数据,同时还包含了用于解码数据的WebAssembly(Wasm)二进制文件。将解码器嵌入到每个文件中所需的存储空间非常小(仅几KB),并且在没有原生解码器的情况下也能确保跨平台的兼容性。为了评估F3的性能,我们将其与传统的以及最先进的开源文件格式进行了对比。我们的测试结果证明了F3存储布局的有效性以及基于Wasm的解码方式所带来的优势。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号