比特币实体交易时间图数据集:解锁加密货币经济与网络科学新视野

【字体: 时间:2025年02月27日 来源:Scientific Data 5.8

编辑推荐:

  为解决比特币交易数据分析难题,法国 LIRIS UMR 5205 等机构研究人员构建 ORBITAAL 数据集,助力多领域研究。

  比特币,作为虚拟货币世界的 “开山鼻祖”,自 2009 年诞生以来,便在全球经济和科技领域掀起了阵阵波澜。它基于去中心化系统,每一笔交易都被详细记录在区块链上,理论上任何人都能获取这些交易信息。然而,由于比特币协议的独特设计以及数据的高度复杂性,想从原始的区块链数据中挖掘出有价值的信息,绝非易事。就好比在一座庞大且杂乱无章的图书馆里,没有索引系统,想找到特定的书籍谈何容易。
一方面,比特币交易数据的结构极为复杂。每笔交易可能涉及多个输入和输出,这使得其在网络中的呈现形式类似复杂的有向加权超图,难以直观理解和分析。另一方面,现有的研究数据存在诸多局限。部分数据集仅提供原始数据或其简单加工版本,转化为便于分析的网络形式困难重重;而一些基于网络表示的数据集,如 Elliptic 数据集,涵盖的交易数量又太少,无法代表比特币交易的全貌。此外,常用的数据提取软件,如 BlockSci,自 2020 年起不再被支持,这无疑给研究工作雪上加霜。

为了攻克这些难题,来自法国 LIRIS UMR 5205 CNRS、Universite Claude Bernard Lyon 1、INSA Lyon、Université Lumière Lyon 2 以及 école Centrale de Lyon 的研究人员 Célestin Coquidé 和 Rémy Cazabet,展开了一项具有开创性的研究 —— 构建 ORBITAAL 数据集(comprehensive Bitcoin dataset for temporal graph analysis,用于时间图分析的综合比特币数据集 )。

该研究成果意义非凡。从经济领域来看,它为研究比特币的经济活动规律、用户间的经济关系提供了有力的数据支持;在网络科学方面,其丰富的时间序列数据和大规模的用户交易信息,为时间图分析、大型网络分析工具的开发以及大数据分析算法的优化提供了理想的样本。而且,这一数据集还能推动机器学习在加密货币领域的应用,有助于更好地理解和预测比特币市场的动态变化。

在研究过程中,研究人员运用了多种关键技术方法。首先,从区块链获取数据时,他们先下载完整的区块链内容,再借助 Bitcoin-etl python 库将二进制格式的原始数据转换为易于处理的 json 格式。接着,采用常见输入启发式(common - input heuristic)算法和图论方法进行地址聚类,以此推断比特币用户身份,并利用 WalletExplorer 网站数据进一步优化聚类结果。最后,将处理好的数据转化为流图(stream graph)和快照(snapshot)两种标准时间图格式,方便后续分析。

下面详细看看研究结果:

  1. 数据集构建:研究人员成功构建了涵盖 2009 年 1 月至 2021 年 1 月所有比特币交易的 ORBITAAL 数据集。该数据集包含约 3.64 亿用户之间的 16.8 亿笔交易,提供了实体 - 实体交易网络的时间图表示、快照和流图。所有交易数据同时以比特币和基于每日汇率换算的美元表示,还提供了用户的全球比特币余额、相关公共地址等详细信息。
  2. 技术验证 - 合理性检查:研究人员通过与blockchain.com数据对比进行合理性检查。在每日支付的交易费用总量、比特币交易输出总量以及不同交易输出数量等关键指标上,ORBITAAL 数据集与参考数据高度吻合,平均相对误差极小。这表明该数据集在处理过程中没有丢失或错误添加数据,准确地反映了比特币交易的实际情况。
  3. 时间图特性描述
    • 节点贡献和活动周期:在流图中,研究人员定义了节点贡献(node contribution)和活动周期(period of activity)等概念。分析发现,比特币活动在 2010 - 2012 年期间迅速爆发,之后部分指标趋于稳定。例如,流图中节点的平均度在 2010 - 2011 年后保持稳定,但出度()大于入度() ,这意味着单位时间内比特币的支出交易更为密集。
    • 强连通分量(SCC):在快照分析中,研究人员关注了强连通分量的变化。早期,比特币活动的年度和月度快照显示,最大强连通分量的相对大小迅速增加,之后趋于稳定。而更细时间分辨率(小时和天)的快照对应的最大强连通分量较小,这表明比特币用户的强连通性可能在较大时间尺度上才更明显地体现出来。
    • 直径和平均最短路径:快照的直径(diameter)和平均最短路径(average shortest path)也反映了网络结构的变化。在 2012 年、2015 - 2016 年以及 2018 - 2019 年等时间段,直径出现较大峰值;在 2010 年、2012 年和 2015 年,平均最短路径出现峰值。这些峰值与网络中交易链的长度变化相关,揭示了比特币交易网络在不同时期的结构演变。
    • 用户死亡周期:通过分析节点表中的数据,研究人员绘制了用户死亡周期的热图。结果显示,大多数比特币用户在首次活动后的几个月内就花光了所有比特币,而且数据还反映出一些比特币危机前的高死亡率时期,这进一步验证了 ORBITAAL 数据集能够准确捕捉用户的活动模式。


综上所述,ORBITAAL 数据集的构建为比特币交易研究带来了新的曙光。它解决了以往研究中数据不完整、难以分析的问题,为经济和网络科学领域的研究提供了全面且易于使用的资源。研究人员通过对数据集的分析,深入揭示了比特币交易网络的结构和动态变化规律,为后续进一步研究比特币的经济影响、网络特性以及发展趋势奠定了坚实的基础。未来,基于这一数据集,有望开发出更精准的比特币市场预测模型,以及更高效的网络分析工具,推动加密货币领域的研究不断向前发展。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号