编辑推荐:
为解决社交媒体机器人难以精准界定、与人类特征差异不明等问题,研究人员开展 “社交媒体机器人与人类特征的全球比较” 研究。分析约 200 百万用户数据后发现,两者在多方面存在差异。该研究为规范机器人使用和监管提供依据,助力社交媒体健康发展。
在如今这个社交媒体高度发达的时代,网络世界就像一个巨大的 “集市”,人们在上面分享生活、交流观点。然而,这个 “集市” 里却混入了一些特殊的 “角色”—— 社交媒体机器人(Social Media Bot)。它们就像隐藏在暗处的 “神秘客”,悄无声息地影响着网络信息的传播和交流。过去,社交媒体机器人在诸多事件中兴风作浪。在 2011 年阿拉伯之春起义中,它们被用来增加政客的粉丝数量,制造虚假的人气假象,还大量涌入新闻信息流,干扰政治异见者的发声;在 2020 年美国大选中,它们参与战略传播,歪曲、编造信息,加剧社会分裂;在 2021 年新冠疫情期间,又疯狂传播反疫苗言论和阴谋论,影响人们的认知和决策 。而且,尽管研究人员开发了多种机器人检测算法,如基于逻辑回归、随机森林等的机器学习模型,还有基于图的方法、结合大语言模型(LLMs)的算法,但人类仍然很难分辨出机器人和真实用户。这些问题严重影响了社交媒体的信息质量和交流环境,也对社会稳定和公众认知造成了威胁,所以研究社交媒体机器人及其与人类的差异迫在眉睫。
卡内基梅隆大学(Carnegie Mellon University)的研究人员 Lynnette Hui Xian Ng 和 Kathleen M. Carley 针对这些问题展开了深入研究。他们的研究成果发表在《Scientific Reports》上,为我们深入了解社交媒体机器人提供了重要依据。
研究人员在开展研究时,采用了多种关键技术方法。首先,他们从 Twitter/X 收集了涉及全球多个事件(如亚洲选举、美国选举等)的大量数据,涵盖约 200 百万用户和 50 亿条推文。接着,使用 BotHunter 算法对每个用户进行标注,判断其是机器人还是人类。然后,综合运用机器学习分类、社会网络分析和语言特征提取等方法,从多个角度分析数据。
在研究结果部分,主要有以下发现:
- 数量占比:研究发现,在不同事件中,机器人用户的平均占比约为 20%,但在美国选举期间,这一比例最高可达 43%。这一结果为分析事件中机器人的影响提供了重要的参考基线,若机器人用户比例大幅超过 20%,则可能意味着对话被操纵。
- 语言特征差异:通过 NetMapper 软件提取心理语言学线索发现,机器人和人类在语言使用上存在显著差异。机器人更多使用语义线索,如滥用词汇、发布更多推文,且倾向于转发;人类则更多使用情感线索,像第一人称代词、表达积极情感,并且更常引用和回复推文。在一些选举事件中,机器人会使用更多情感线索,试图影响在线情绪。此外,当机器人发布原创推文时,其语言特征与转发时有所不同,有自己独特的 “语言签名”。
- 身份呈现差异:在自我身份呈现方面,机器人呈现身份的比例(21.4%)低于人类(27.0%),且机器人倾向于集中展示少数常见身份,而人类的身份呈现更加多样化。在话题框架使用上,机器人更多围绕政治、性别、种族等社会敏感话题进行交流,且使用的词汇相对有限;人类则在各类话题上分布较为均匀,使用的词汇更加丰富多样。
- 社交互动差异:分析用户的社交互动网络发现,机器人的自我中心网络密度比人类高 8.33%,这意味着机器人的交流结构更紧密,直接互动更多。虽然机器人与其他机器人互动的比例(9.66%)高于人类与机器人互动的比例(7.31%),但两者都更多地与人类互动。在政治话语等场景中,机器人常呈现星型网络结构,作为信息放大器,增强某些用户和信息的传播;人类则更倾向于树形结构,交流互动更加多元化。
研究结论和讨论部分具有重要意义。研究表明,社交媒体机器人和人类在多个方面存在明显差异,这些差异可用于区分两者。研究人员基于这些差异,提出了一些关于机器人使用和监管的建议。例如,利用机器人擅长转发、发布频率高的特点,让其承担信息公告等简单任务;由于机器人的星型网络结构在传播信息时能保持信息的完整性,可用于灾难和危机管理的重要信息发布;根据机器人内容与身份匹配的特点,让其提供特定领域的教育材料。同时,鉴于机器人使用更多不良语言,应重点监管其语言使用,减少网络不良信息。此外,研究还发现不同平台上的机器人在语言使用上具有相似性,且随着技术发展,机器人不断进化,给检测带来挑战,但目前的检测工具仍能识别一定比例的机器人。这一系列研究成果为后续进一步研究社交媒体机器人、规范其使用和监管提供了重要的理论基础和实践指导,有助于营造更加健康、有序的社交媒体环境。