编辑推荐:
为解决撒哈拉以南非洲地区孕妇因医疗资源有限、语言障碍等导致获取医疗建议困难的问题,研究人员开展了关于母婴健康问答数据集(MOTHER)的研究。结果是收集了 503 对问答数据,开发出针对孕期不同阶段的聊天机器人模型,有助于改善孕妇健康状况。
在广袤的非洲大陆,撒哈拉以南地区的孕妇们正面临着一场严峻的健康挑战。据 2019 年联合国儿童基金会(UNICEF)报告显示,这里的女性因分娩死亡的概率比高收入国家的女性高出五十倍之多。有限的医疗设施、难以接触到专业医生、缺乏紧急护理、医疗信息匮乏以及营养不良等因素,如同重重阴霾,笼罩在这些准妈妈们的头顶。每天,约有 800 名非洲农村女性因妊娠相关并发症离世,这一触目惊心的数字,迫切呼唤着创新的医疗解决方案。
为了打破这一困境,来自乌干达马凯雷雷大学(Makerere University)的研究人员踏上了探索之路。他们聚焦于母婴健康领域,致力于开发一个全面的问答数据集,以此为基础构建能够为孕妇提供即时、准确医疗信息的对话聊天机器人。
研究人员通过对乌干达农村和半城市地区的孕妇进行调查,收集了 503 对关于母婴健康的问题和答案。这些问题涵盖了孕期各个方面,如产前护理、营养、妊娠并发症、分娩、产后护理以及孕产妇健康等。参与调查的孕妇年龄在 20 - 50 岁之间,且特意选取了处于孕早期、中期和晚期的女性,有效回复率高达 94%。
在数据收集完成后,研究人员进行了一系列的预处理工作。他们将问题和答案重新整理为清晰的英语句子,以增强文本的可读性。对于相似的问题和答案,分别进行分组形成模式(patterns)和响应(responses),并为其添加标签(tags)和上下文(contexts)。最终,通过将标签、上下文、模式和响应进行组合,创建了意图(intents),从而将普通的问答对转化为可用于训练基于 BERT 模型的聊天机器人的数据集。
研究人员运用的主要关键技术方法包括:首先是数据收集,通过对特定地区孕妇进行有目的的抽样调查获取数据;然后是数据预处理,对收集到的数据进行整理、分组、标注等操作,将其转化为适合训练模型的格式。样本来源于乌干达农村和半城市地区的孕妇。
研究结果:
- 数据收集与整理:从 500 名孕妇处收集了孕期挑战和生活方式相关问题,经医疗专业人员解答后形成问答对数据集。数据清晰呈现了农村孕妇在营养、产前护理和产后护理等方面面临的挑战。
- 数据集构建:通过对问答对的预处理,形成了包含意图(Intents)、模式(Patterns)、响应(Responses)等的数据文件,如 Data file 1 - 5。这些数据文件为训练聊天机器人模型奠定了基础。
研究结论与讨论:该研究成功开发了母婴健康问答数据集,并将其存储于哈佛数据文库(Harvard Dataverse),可供后续研究使用。虽然数据集存在一定局限性,如仅以英语呈现,样本数量有限等,但它为构建智能聊天机器人提供了关键基础。该聊天机器人有望为资源受限地区的孕妇提供即时医疗信息,尤其是能用当地语言交流,克服语言障碍。这对于降低孕产妇死亡率、改善母婴健康结局具有重要意义,为提升全球母婴健康水平开辟了新的道路,也为后续相关研究和应用开发提供了宝贵的资源和参考。