编辑推荐:
研究人员评估 AI 辅助与传统主题分析在研究皮肤利什曼病(CL)疤痕心理影响中的效果,发现 AI 深度学习模型高效准确。
在科学研究的广袤领域中,定性研究里的主题分析至关重要,却也面临着诸多挑战。传统的主题分析依赖研究人员复杂的推理和解释技能,不仅耗时费力,而且不同研究者的分析结果差异较大。想象一下,面对堆积如山的文本资料,研究人员要逐字逐句去分析、归纳,这得花费多少时间和精力呀!随着生成式人工智能(A.I.),尤其是大语言模型(LLMs)的兴起,就像给这一困境带来了一道曙光,让人们看到了提升和部分自动化主题分析的希望。
为了探究人工智能在定性研究中的实际价值,来自摩洛哥穆罕默德六世国际公共卫生学院(Mohammed VI International School of Public Health)的 Issam Bennis 和 Safwane Mouwafaq 开展了一项意义非凡的研究,该研究成果发表在《BMC Medical Informatics and Decision Making》上。
研究人员采用了多种关键技术方法。在数据方面,使用了来自摩洛哥高中生皮肤利什曼病(Cutaneous Leishmaniasis,CL)心理影响初步研究的数据,包含 448 名学生的直接引语。研究对比了 9 种 A.I. 生成模型(Llama 3.1 405B、Claude 3.5 Sonnet 等)与人工专家分析的结果。通过 Cohen’s Kappa 系数计算一致性评估,利用 Jaccard 指数计算相似度,以此来严格评估模型性能。
研究结果令人眼前一亮:
模型性能评估 :先进的 A.I. 模型与参考标准表现出惊人的一致性,部分模型甚至达到了完美的一致性(Jaccard 指数 = 1.00)。从加权 Cohen Kappa 系数来看,不同模型在内部一致性和与初始参考标准(Reference A)的外部一致性上表现各异。Claude_1st、NotebookLM_1st 和 Gemini_1st 等模型在首次评估中获得了较高的加权 Kappa 分数,且评估间的变异性较低。在外部一致性方面,ChatGPT o1-Pro 达到了最高水平(0.79 [0.74, 0.85]),紧随其后的是 Claude(0.78 [0.73, 0.84])和 Llama(0.78 [0.72, 0.83])。手动分析的外部一致性也从最初的 0.74 [0.68, 0.80] 提升到了第二次评估的 0.82 [0.77, 0.87] 。
性别亚组分析 :在对性别亚组的分析中,Llama 3.1 405B 在不同性别亚组中都与 Reference A 保持了一致的外部一致性(第一次分析 Kappa=0.82 [0.68 - 0.97],第二次分析 Kappa=0.83 [0.68 - 0.97])。ChatGPT o1-Pro 在所有亚组中都实现了完美的内部一致性(Kappa=1.00 [1.00 - 1.00]),且外部一致性得分稳定(Kappa=0.81 [0.69 - 0.94])。Claude 3.5 Sonnet 对女学生的分析展现出完美的内部一致性(Kappa=1.00 [1.00 - 1.00]),外部一致性也保持稳定(Kappa=0.80 [0.52 - 1.00])。NotebookLM 和 Gemini 1.5 Advanced Ultra 同样表现出色 。
响应分布模式 :分析不同样本量(63 和 79 个响应)的数据集发现,在 79 响应数据集中,Claude 3.5 Sonnet、ChatGPT o1-Pro 和 ChatGPT o1 在两次分析中都显示出统计学意义(p<0.05)。ChatGPT o1-Pro 相较于早期版本,减少了不确定(U)分类,而 Llama 3.1 405B 在 63 响应样本中记录的不确定(U)分类极少 。
主题和子主题分析 :研究确定了五个主要主题,涵盖 24 个不同的子主题,包括自我概念(SelfConcept)、身体形象(Body Image)、社会污名(Social Stigma)、自我污名(Self-Stigma)和寻求健康行为(Health Seeking Behaviour)。较新的 A.I. 模型版本,如 ChatGPT o1-Pro、ChatGPT o1、GrokV2 和 DeepSeekV3,在最终迭代中与 Reference A 的主题完全对齐,均识别出了全部 24 个子主题(Jaccard 指数 = 1.00) 。
新框架的生成 :通过 A.I. 扎根理论 分析,研究生成了 “脆弱性分形圈”(Fractal circle of vulnerabilities)框架。该框架包含个人核心(Personal Core)、关系圈(Relational Circle)、社会文化领域(Socio-Cultural Sphere)、制度背景(Institutional Context)和复原力因素(Resilience Factors)五个相互关联的层面,引入了如关联污名、结构性污名和性别特定经历等新维度,为理解皮肤利什曼病的多层次心理社会影响提供了更细致的视角 。
在讨论部分,研究人员指出,与标准的定性分析方法相比,AI 驱动的方法在一致性、可重复性和普遍性方面具有明显优势。新模型在处理复杂数据时,对模糊响应的处理能力显著提升,减少了将响应标记为 “不确定” 的情况,能够更好地理解心理社会行为的转变。同时,A.I. 模型可作为自动化三角测量工具,帮助生成更多的解释框架或假设。然而,研究也存在一些局限性,比如需要在不同地理和文化背景下进行复制研究,以验证结果的普适性;使用 A.I. 算法时要特别注意偏差问题;A.I. 技术发展迅速,研究结果可能很快会因技术进步而改变。
总的来说,这项研究充分展示了生成式人工智能在定性研究中的巨大变革潜力。它不仅为研究人员提供了更高效、准确的分析工具,还有助于深入理解复杂的心理社会现象。未来,随着 A.I. 技术的不断发展,研究人员需要进一步探索如何更好地将其与人类专业知识相结合,同时制定标准化的指南,以确保 A.I. 在定性研究中的合理应用,推动健康医学等领域的研究迈向新的高度。
闁瑰灚鎹佺粊锟�
濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙
10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�
婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷
闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�
濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷