生物通-更多新闻

当前位置：首页 > 今日动态 > 科研动态/国外

一种具有跨模态对齐功能的多模态语义融合网络，用于多模态情感分析

摘要用户生成的多模态数据可以为情感分析任务提供强有力的情感线索。现有研究通过各种多模态融合方法对不同模态中的共同情感特征进行了对齐。然而，这些方法存在一定的局限性：（1）以往的研究仅对齐了图像和文本之间的共同情感特征，而没有充分探索这些特征之间的相互作用，从而导致分析结果不够理想。（2）图像和文本中的冗余噪声增加了跨模态对齐过程中特征错位的风险。为了解决这些问题，我们提出了一种多模态语义融合网络（MSFN），用于深入探索图像和文本之间的语义关系，以实现多模态情感分析（MSA）。具体来说，我们使用门控注意力机制来对齐与情感相关的图像区域特征和文本词汇特征。随后，我们利用图卷积网络来建模这些特征之

来源：ACM Transactions on Multimedia Computing, Communications, and Applications

时间：2025-11-07
TOPLAS的季节更替

亲爱的《TOPLAS》的作者、审稿人和读者们：我很高兴地宣布，自2025年9月1日起，Alastair F. Donaldson将成为《TOPLAS》的新任主编。Alastair在编程语言研究领域享有盛誉，他在多个领域做出了诸多贡献，这将为他领导这样一本接收多样化投稿的期刊带来巨大优势。《TOPLAS》的现状及其发展潜力让他深感自豪，我期待在她的领导下看到该期刊不断成长。我很感激能有幸担任主编，哪怕只是临时职务。和我们许多人一样，我在研究生时期花费了大量时间研究《TOPLAS》上的经典论文，能够参与将这些论文培育成新的经典之作，我感到非常荣幸。我一直非常欣赏《TOPLAS》的审稿机制——这种机

来源：ACM Transactions on Programming Languages and Systems

时间：2025-11-07
MARS模型：基于文本的行人搜索新突破，视觉属性与跨模态重建的双重优化

文本行人搜索（Text-Based Person Search， TBPS）作为多模态检索的重要分支，旨在通过文本描述从图库中检索特定身份的行人图像。然而，该任务面临两大核心挑战：一是文本描述的模糊性导致的跨身份噪声（inter-identity noise），即同一描述可能对应多个相似身份；二是同一身份因姿态、光照等因素产生的身份内变异（intra-identity variations），导致视觉外观不一致。为应对这些挑战，研究者提出了MARS架构，通过引入视觉重建损失和属性损失，显著提升了检索精度。MARS架构的核心组件包括图像编码器（Ev）、文本编码器（Et）、跨模态编码器（Ecros

来源：ACM Transactions on Multimedia Computing, Communications, and Applications

时间：2025-11-07
Trocq：免费的证明传输机制，超越等价性与单值性

在现代数学形式化过程中，依赖类型理论的交互式定理证明器成为了一个重要的工具。然而，形式化过程中仍然存在许多繁琐的步骤，例如需要证明某些类型变换不影响其可证明性。为了简化这一过程，研究人员提出了一种名为Trocq的新框架，旨在自动化依赖类型理论中的证明转移。证明转移的难点在于如何确保类型变换不会破坏原有的逻辑关系。现有的工具通常针对特定类型的转换，比如等价关系或结构等价，但它们的适用范围有限，且可能依赖于某些强假设，如选择公理或未ivalence公理。Trocq框架则通过引入一种更为通用的类型等价结构，使得证明转移可以适用于更广泛的关系类型，从而减少了对未ivalence公理的依赖。这种新框架基

来源：ACM Transactions on Programming Languages and Systems

时间：2025-11-07
面向异构架构的可扩展K近邻图构建优化研究

可扩展K近邻图构建的挑战与创新在机器学习和科学计算的众多应用中，K近邻（kNN）图的构建是一个基础且关键的环节。尽管其应用广泛，但在分布式异构高性能计算（HPC）系统上，高效地构建大规模的全最近邻图仍然是一个艰巨的挑战，特别是对于大型稀疏非整数数据集。传统的直接计算方法需要计算所有点对之间的距离，其工作量随着数据点数量N的增长呈O(N2)级别增长，这在处理百万级甚至更多数据点时变得不切实际。虽然对于低维数据集，基于树的方法（如kd-树或八叉树）可以通过在距离计算前剪枝远处点来显著降低计算成本，但在高维情况下，这些方法的有效性会迅速下降，这就是所谓的“维度灾难”。为了应对这一挑战，研究者们提出了

来源：ACM Transactions on Parallel Computing

时间：2025-11-07
TorchBraid：利用MPI和GPU加速实现深度神经网络的高性能层并行训练

摘要TorchBraid是一种高性能的深度神经网络（DNN）层并行训练实现方式，支持基于MPI的并行处理和GPU加速。层并行训练旨在克服DNN在前向传播和反向传播过程中固有的序列化问题，这种序列化限制了计算资源在高扩展性场景下的利用率。为此，TorchBraid将PyTorch神经网络框架与先进的XBraid时间并行库相结合。本文介绍了TorchBraid的用途和性能，并探讨了在自动微分与层并行训练结合过程中遇到的算法挑战及其解决方案。实验结果涵盖了使用GPU加速与否的情况，涉及Tiny ImageNet、MNIST图像分类数据集以及循环神经网络。总体而言，TorchBraid能够在高扩展性和

来源：ACM Transactions on Mathematical Software

时间：2025-11-07
迈向MPI-OpenMP应用程序的无缝互操作性

摘要为基于MPI的应用程序编写的数学软件库与为基于OpenMP的应用程序编写的软件库之间存在很大差异。然而，最近PETSc允许从OpenMP应用程序中直接使用其基于MPI的线性求解器。另外，MPICH MPI开发团队启动了一个新项目，旨在实现几乎无缝地在OpenMP应用程序中使用MPI。这两种方法都将带来类似的用户体验。我们讨论了这些项目的原因及其为OpenMP应用程序提供更多数值库选择的潜力，包括PETSc中丰富的线性求解器。此外，我们还展示了使用第一种方法的应用程序的性能，证明了其有效性。

来源：ACM Transactions on Mathematical Software

时间：2025-11-07
基于Cell模型和分区近似的随机重用理论：突破Zipfian工作负载LRU缓存性能分析瓶颈

2 The Theory2.1 Problem Definition随机数据重用问题定义为N个固定大小的数据项，每个数据项具有访问比率ai，其中0 < ai ≤ 1且∑ai = 1。随机访问是当所有ai = 1/N时的特殊情况。Dan-Towsley问题将数据划分为K个分区，每个分区具有访问比率Ak和数据大小Dk。Zipfian访问中，数据项按排名从1到N排列，访问比率ai ∝ 1/iα。2.2 The Cell ModelCell模型研究单个数据项在连续时间下的分数缓存问题。通过工作集理论，推导出离散时间和连续时间下的缓存消耗C(t)和未命中率M(t)的递归公式。在连续时间模型中，M(t)对

来源：ACM Transactions on Modeling and Performance Evaluation of Computing Systems

时间：2025-11-07
C语言中的声音静态数据竞争条件验证：这场“竞赛”已经输了吗？

在现代软件开发中，C语言因其高效性和灵活性而被广泛使用，尤其是在构建关键基础设施的系统时。然而，由于C语言的并发特性，程序中可能会出现数据竞争（data race），这会导致不可预测的行为、性能问题和系统崩溃。因此，确保C程序的可靠性至关重要。数据竞争的静态检测，特别是确保数据竞争自由（data race freedom）的验证，是一个长期存在的挑战。尽管这一领域在过去十年中进行了大量研究，但大多数实际的数据竞争检测工具已经放弃了严格的正确性（soundness）。那么，是否意味着在现实世界的C程序中，实现一种真正的、有保障的数据竞争自由静态验证是不可能的？本文旨在探讨自动化数据竞争自由验证所

来源：ACM Transactions on Programming Languages and Systems

时间：2025-11-07
一种大规模并行、高性能、便携式的自由空间光谱泊松求解器

摘要Vico等人提出了一种用于计算体积势的快速算法，该算法对于需要求解自由空间泊松方程的领域（如束流物理和等离子体物理）非常有用。目前，标准算法是Hockney和Eastwood的算法，其收敛性最高仅为二阶。Vico等人提出的算法对于足够光滑的函数能够实现谱收敛，即其收敛速度优于任何基于网格点数量的固定阶数算法。我们在Independent Parallel Particle Layer（IPPL）库中实现了传统Hockney-Eastwood算法以及新型Vico-Greengard泊松求解器的可移植版本。对于足够光滑的源函数，Vico-Greengard算法在相同网格尺寸下能够比Hockne

来源：ACM Transactions on Mathematical Software

时间：2025-11-07
视觉-语言模型学习超级图像，以实现高效的部分相关视频检索

摘要在本文中，我们提出了一种高效且性能优异的部分相关视频检索方法。该方法旨在检索包含至少一个与输入文本查询相关片段的长视频。挑战在于使用视觉模型对高密度视频帧进行编码。这要求模型能够处理大量的帧，从而导致长视频的计算成本显著增加。为了降低计算成本，以往的研究采用了轻量级的视觉模型，但由于其能力有限，检索效果并不理想。然而，直接用高性能的大规模视觉与语言模型（VLM）替换这些模型又存在效率低下的问题。为了解决这一困境，我们没有采用高密度视频帧，而是关注“超级图像”，这些图像是通过将视频帧重新排列到\(N\times N\)网格布局中创建的。这种方法将视觉编码的数量减少了\(\frac{1}{N^

来源：ACM Transactions on Multimedia Computing, Communications, and Applications

时间：2025-11-07
《文本-多媒体检索专题介绍：利用自然语言进行多媒体数据检索》

随着互联网的快速发展，用户生成的多媒体内容呈现出指数级增长的趋势。这种增长不仅丰富了数字世界的表达形式，也对信息检索技术提出了更高的要求。传统的基于关键词的搜索方式已难以满足用户对多媒体内容进行语义层面检索的需求，因此，跨模态语义对齐与多模态表示学习成为当前研究的重要方向。特别是在文本到多媒体内容的检索任务中，如何将自然语言查询与图像、视频或音频等异构数据进行有效匹配，成为了一个关键挑战。这一领域的发展对于提升用户交互体验、优化内容组织方式以及推动跨行业应用具有深远意义。在这一背景下，本文介绍了一期特刊中收录的15篇前沿研究论文，这些论文围绕两个核心主题展开：一是改进跨模态对齐与表示学习的方法

来源：ACM Transactions on Multimedia Computing, Communications, and Applications

时间：2025-11-07
学习视觉-语义嵌入以实现泛化的人脸重识别：一个统一的视角

摘要通用人员重新识别（Re-ID）是机器学习和计算机视觉领域一个非常热门的研究课题，由于其在公共安全和视频监控中的多种应用，在实际场景中发挥着重要作用。然而，以往的方法主要集中在视觉表示的学习上，而忽视了在训练过程中探索语义特征的潜力，这容易导致系统在新领域应用时泛化能力较差。在本文中，我们提出了一种名为MMET的统一框架，用于实现更强大的通用Re-ID视觉-语义嵌入学习。为了进一步增强基于Transformer的鲁棒特征学习能力，我们引入了一种称为掩码多模态建模（Masked Multimodal Modeling, MMM）的动态掩码机制，该机制可以对图

来源：ACM Transactions on Multimedia Computing, Communications, and Applications

时间：2025-11-07
基于原始的对抗性训练实现上下文交互，用于组合式零样本学习

摘要组合式零样本学习（Compositional Zero-shot Learning, CZSL）旨在通过已知的属性-对象对来识别新的组合。CZSL任务的主要挑战在于属性和对象的视觉元素之间的复杂交互作用导致的显著差异，这会降低对新组合的分类性能。以往的研究主要通过关注解耦策略或利用基于对象的条件概率来限制属性的选择范围来解决这个问题。不幸的是，很少有研究从建模视觉元素交互机制的角度来探讨这个问题。受到传统对抗学习在跨领域少样本学习中取得成功的启发，我们进一步提出了一种与模型无关的、基于原始元素的对抗训练（Primitive-based A

来源：ACM Transactions on Multimedia Computing, Communications, and Applications

时间：2025-11-07
幕后揭秘：探讨网络反驳性言论写作的动机与障碍

在线网络言论中的反仇恨言论（Counterspeech）作为一种应对网络仇恨的手段，近年来受到了广泛的关注。随着社交媒体平台的普及，网络仇恨和有害内容的传播变得越来越普遍，这使得反仇恨言论的重要性日益凸显。然而，尽管已有大量研究探讨了反仇恨言论的内容及其对社交媒体生态的影响，对于谁更倾向于参与反仇恨言论以及哪些因素促使或阻碍了用户的参与，仍然存在研究空白。本文通过调查458名美国英语使用者，分析了反仇恨言论参与的关键动机和障碍，同时探讨了用户对自身反仇恨言论的满意度、写作难度以及其效果的感知。此外，还研究了用户使用人工智能（如ChatGPT）辅助撰写反仇恨言论的意愿。通过这一研究，我们提出了一

来源：ACM Transactions on Computer-Human Interaction

时间：2025-11-07
走向“跨性别死亡”的三个步骤：数字媒体中的跨性别网络死亡政治学

### 理解与解读：数字空间中的跨性别者如何被边缘化与暴力对待在当今的数字世界中，跨性别者面临着长期存在的边缘化与暴力现象。这种暴力不仅仅局限于现实世界，更广泛地渗透到虚拟空间，如游戏、社交媒体和网络论坛。跨性别者在这些数字环境中常常遭遇骚扰、威胁以及带有跨性别偏见的描述，这些行为背后蕴含着复杂的社会与政治逻辑。为了深入理解这种持续的暴力现象，并为其提供理论框架，本研究提出了“跨性别数字奈非政治”（Trans Cyber-Necropolitics, TCN）这一概念。TCN旨在揭示数字媒体如何通过一系列机制，将跨性别者的存在视为可被忽视、可被贬低甚至可被消灭的对象，从而形成一种数字死亡的系统

来源：ACM Transactions on Computer-Human Interaction

时间：2025-11-07
新自由主义对计算教育研究与实践的影响

摘要我探讨了新自由主义对计算机教育与研究的影响。首先，我分析了国家对高等教育资助减少所带来的影响。接着，我讨论了高等教育机构为应对资金削减所采取的几种措施：管理文化的改变、提高学生学费、研究工作的私有化、兼职教师的增加、审计文化的盛行以及人工智能技术在教学中的应用。随后，我探讨了教育与研究商品化的现象，这导致了学生自主性的丧失、学术标准的降低以及学术主体性的扭曲。我指出，这种商品化进程使得教师和学生逐渐失去人性，形成了一种顺从的文化， professionality（专业性）和 pedagogy（教学法）逐渐被忽视，自主性和公众信任也随之受损，公平性、公民参与以及批判性思维也受到了边缘化。我分

来源：ACM Transactions on Computing Education

时间：2025-11-07
与历史悠久的黑人大学建立产业合作伙伴关系对黑人本科生计算机职业决策的影响

摘要为了解决历史上黑人在计算机领域被边缘化的问题，许多学术和工业界举措已经出台，以增加科技行业的多样性和包容性。在这项研究中，我们探讨了一个特定高等教育项目——即历史悠久的黑人高校提供的“Google in Residence”（GIR）项目——对学生兴趣及其追求计算机相关职业的影响。该高校的就业数据显示，获得谷歌实习和全职工作的GIR项目参与者主要是国际学生，而非占GIR项目参与者大多数的非裔美国学生（非裔美国学生占GIR项目参与者的约一半）。为了更好地理解这一现象，我们采访了27名学生，这些学生涵盖了整个四年的学习过程，其中包括非裔美国学生和国际学生。访谈内容旨在了解影响职业决策的各种因素

来源：ACM Transactions on Computing Education

时间：2025-11-07
恐跨症其实源于人们自身的认知偏见：从跨性别视角看大型语言模型

大语言模型（LLMs）正在迅速成为产品和服务中的热门趋势，尤其是在聊天机器人领域。这些模型能够处理各种话题，包括与性别认同密切相关的议题。然而，在反跨性别言论日益增多的背景下，我们对两个流行的大语言模型在回答关于跨性别身份的现实问题时的表现进行了研究。我们采用了反思性分析方法，以我们对跨性别群体的定位知识为中心。我们的研究发现，即使面对高度跨性别歧视的用户提示，这些模型仍倾向于返回支持跨性别身份的回应。尽管我们也发现了某些模型返回了高度跨性别歧视的内容，但这些反跨性别言论往往是微妙的，需要跨性别利益相关者从多样化的视角来解读。在当前的“价值中立”方法中，跨性别歧视往往被验证为合理，因此我们建议

来源：ACM Transactions on Computer-Human Interaction

时间：2025-11-07
界面作为一种媒介：从表面到过渡界面——一个概念框架及设计卡片，用于构建交互空间

本文提出了一种名为“transface”的概念，旨在为交互设计提供一种统一的理论框架，从而将表面绑定和表面自由的交互方式纳入一个更抽象的视角。这一概念的核心在于将“界面”理解为一种关系，而不是一个具体对象或物质。通过这种关系的视角，交互被定义为一种“穿越”，即在某种介质中发生的动作，而这种介质可以是表面或非表面。文章还通过实际案例和与五位设计师的访谈，验证了这一概念的适用性，并通过设计卡片的形式，进一步探索了这一框架在实际设计过程中的应用。在理论层面，本文探讨了“界面”和“交互”这两个概念的定义问题。在人机交互（HCI）领域，这些概念往往被模糊处理，导致设计和理论上的不明确。例如，一些研究认为

来源：ACM Transactions on Computer-Human Interaction

时间：2025-11-07

页次：2736/9624 共192467篇文章
分页：[<<][2731][2732][2733][2734][2735][2736][2737][2738][2739][2740][>>][首页][尾页]

高级人才招聘专区