全球COVID-19研究数据集正式开放,内含近3万篇论文和所需AI研究工具
近日,科技界、学术界正式宣布了一个公开数据集 CORD-19,内含截至 3 月 13 日的所有新型冠状病毒的论文,并包含针对文本进行优化的文本处理工具包 SciSpacy、在科学文本上进行预训练的 BERT 模型 SciBERT、开放研究语料库和 API 等,汇集了有关 SARS-CoV-2 病毒内容在内的共计近 3 万篇文献。
新的数据集是机器可读的,可以轻松进行解析以用于
机器学习目的。为了让研究人员可以快速梳理清楚数据,美国国家科学、工程和医学研究院与世界卫生组织合作,提出了与冠状病毒有关的“高优先级”问题,这些问题与遗传、治疗、症状和预防等相关。
此前,全球已有包含美国、意大利、韩国、英国等在内的 11 个国家和地区要求相关机构开放这些数据集,以供研究。这里的相关机构包括 PubMed Central(美国国立卫生研究院提供的一项服务, 存档生物医学, 生命科学科研文献)和世界卫生组织的 Covid 数据库。在呼吁开放数据集的公开信中写道:
希望发布者可以提供相关的 AI 软件和计算机系统可以直接读取和使用的数据格式,而不是一个简单的 PDF 文档。