补充说明:用于从二进制可执行文件中逆向工程数学方程的神经反编译技术

《ACM Transactions on Intelligent Systems and Technology》:REMEND: Neural Decompilation for Reverse Engineering Math Equations from Binary Executables

【字体: 时间:2025年11月08日 来源:ACM Transactions on Intelligent Systems and Technology

编辑推荐:

  REMEND是一种基于神经网络的解编译框架,通过Transformer模型结合算法处理,能从二进制文件中显式恢复数学方程的语义信息(如数据流和运算顺序),在多个架构和优化级别下准确率达89.8%-92.4%,模型参数仅1200万,执行时间快且泛化能力强。

  

摘要

对实现数学方程的二进制可执行文件进行分析时,可以利用对其实现方式的语义信息进行逆向工程。传统的算法逆向工程工具要么无法恢复语义信息,要么依赖于动态分析和符号执行,而这需要较长的逆向工程时间。此外,这些算法工具在针对新平台和语言时也需要进行大量的重新开发工作。最近,人们开发了用于反编译的神经方法来恢复类似人类编写的源代码,但这些方法并不能明确提取语义信息。我们提出了REMEND这一神经反编译框架,它能够从二进制文件中逆向工程出数学方程,从而明确地恢复程序的语义信息,如数据流和操作顺序。REMEND结合了用于神经反编译的Transformer编码器-解码器模型以及算法处理机制,以增强处理数学方程所需的符号推理能力。这是首次证明Transformer在神经反编译领域可以超越单纯生成源代码的局限,进而对以数学方程形式表示的程序语义进行推理的研究。我们使用一个包含多种数学方程实现和编译方式的合成数据集进行训练,从而开发出了一个鲁棒的神经反编译模型,并展示了其跨平台适配性。该模型在三种指令集架构(ISA)、三种优化级别以及两种编程语言上的准确率达到了89.8%至92.4%,这扩展了现有最先进神经反编译器的功能。我们使用了一个参数数量仅为1200万的小型模型实现了高准确率,每个函数的平均执行时间为0.132秒。在来自开源程序的真实世界数据集上,尽管REMEND是用合成数据训练的,但其泛化能力仍优于现有的最先进神经反编译器,准确率提高了8%。合成数据集和真实世界数据集的详细信息可访问:https://hf.co/udiboy1209/REMEND
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号