比特币交易图数据集:解锁区块链分析新视角

【字体: 时间:2025年03月09日 来源:Scientific Data 5.8

编辑推荐:

  为解决比特币研究数据集稀缺问题,研究人员构建交易图数据集,为相关研究提供支持。

  # 比特币交易图数据集:区块链研究的新钥匙
在数字经济的浪潮中,比特币(Bitcoin)自 2008 年由中本聪(Satoshi Nakamoto)提出后,便以其去中心化的特性,彻底改变了传统的价值存储和转移模式。它无需依赖中央机构,就能实现参与者之间的价值交换,这一创新之举吸引了全球目光。随着时间推移,比特币的用户数量不断攀升,2023 年平均每日用户数达到 270,000,同年网络交易额约 8.6 万亿美元。在科研领域,比特币也备受关注,过去五年每年在谷歌学术上被索引的研究论文超 30,000 篇。
然而,比特币研究的道路并非一帆风顺。尽管所有比特币交易数据都是公开的,但研究人员却面临着精心整理的数据集严重稀缺的困境。比特币社区以往主要致力于提升网络的安全性、可扩展性和实用性等关键方面,同时应对安全漏洞和金融犯罪等风险,却忽视了数据集建设。这导致研究人员在探索比特币生态系统及其影响时困难重重,因为缺乏易于获取且结构良好的数据集,就如同在黑暗中摸索,难以提取有价值的信息。

为了打破这一僵局,来自法国综合理工学院(LIX)、Coinshares 以及阿联酋阿布扎比 MBUZAI 的研究人员 Hugo Schnoering 和 Michalis Vazirgiannis 开展了一项重要研究。他们构建了一个大规模、具有时间注释的比特币交易图数据集,相关成果发表在《Scientific Data》上。

研究人员在构建数据集时运用了多种关键技术方法。首先是数据提取,他们安装比特币核心(Bitcoin Core)24.0 版本并搭建节点,从比特币区块链前 700,000 个区块中提取交易细节。在节点定义上,考虑将锁定脚本作为节点候选,后通过启发式算法对脚本聚类形成节点。对于边的确定,依据交易中输入和输出 TXO(交易输出,Transaction Output)的价值变化来判断节点是发送方还是接收方,从而确定边的方向。此外,为保证数据质量,他们还排除了 CoinJoin 和彩色币交易。最后,利用 Python 编写代码,借助 PostgreSQL 进行数据存储和管理。

数据集构建


  1. 原始数据提取:从比特币区块链获取交易数据,保存于本地,解析提取交易细节,选取前 700,000 个区块数据,避免 Taproot 升级带来的复杂性。
  2. 节点定义:以锁定脚本为基础,通过启发式算法聚类代表真实实体的脚本,形成约 252 百万个节点,每个节点用唯一整数别名标识。
  3. 边的确定:根据交易中节点的价值接收或发送情况确定边的方向和权重,若节点在交易中接收价值为正,则为接收方,反之为发送方,从发送方到接收方绘制边。
  4. 排除特殊交易:排除 CoinJoin 和彩色币交易,前者增加隐私性干扰分析,后者用于非比特币价值转移,影响对标准比特币交易的研究。
  5. 数据集构成:数据集包含节点和边的相关表格,节点表记录节点属性,边表记录边的属性,构建过程涉及多步骤和中间表,代码开源确保可重复性。

节点标注


研究人员为节点标注了丰富的信息。他们利用比特币论坛(BitcoinTalk)的帖子,结合大语言模型 ChatGPT,对节点进行标注。标注的实体类型包括个体、挖矿、交易所、市场、赌博、水龙头、混合器、庞氏骗局、勒索软件、桥接等。不过,这种标注方法存在一定局限性,比如论坛帖子可能包含错误信息,且数据存在语言和信息来源的偏差。为了丰富数据集,研究人员还从多个来源整合数据,如加密货币交易所钱包地址、以往研究中的勒索软件地址、美国财政部特别指定国民名单(SDN List)中的地址等。

技术验证


为验证数据集的可靠性,研究人员进行了节点分类预测实验。他们选择了 “交易所”“挖矿”“赌博”“庞氏骗局”“个体”“勒索软件”“投注” 等标签进行预测,训练了四种图神经网络(GNNs)模型:GCN、GraphSage、GAT、GIN,同时以梯度提升分类器(GBC)作为对比。实验结果表明,节点特征和邻域信息对预测实体类型有帮助,GAT 和 GIN 模型表现最佳,宏 F1 分数分别达到 0.64 和 0.63,但模型在预测 “勒索软件” 类时仍存在困难。此外,研究还发现经过节点年龄归一化和转换为美元价值的工程特征,对提升模型分类性能很有用。

研究结论与意义


研究人员构建的比特币交易图数据集,规模庞大且标注丰富,为比特币及区块链研究提供了重要资源。通过对数据集的分析,能够深入了解比特币交易模式,检测欺诈行为,助力监管机构追踪资金流向,提升比特币生态系统的安全性和透明度。在未来研究中,该数据集还可用于研究不同实体类型间的交互、图的演化,以及与其他经济网络的比较等。同时,其应用潜力不仅局限于经济领域,在社会网络分析和供应链网络等跨学科研究中也能发挥重要作用,为相关领域的研究开辟了新的方向。

濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙

10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�

婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷

闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�

濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号