以数据为中心,实现各种不同操作接口的标准化,使得用户在数据处理上只需要有一个入口,这就是 DataLab 期待扮演的角色。
论文链接:https://arxiv.org/pdf/2202.12875.pdf
平台访问:http://datalab.nlpedia.ai/
SDK 地址:https://github.com/ExpressAI/DataLab
文档地址:https://expressai.github.io/DataLab/
覆盖广:DataLab 目前覆盖大部分 NLP 任务,包含 1700 多个数据集以及 3500 多个通过数据变形获得的数据集;
可理解性:DataLab 为许多数据集 (728 个数据集,139,570,057 个样本) 定制能够刻画数据集的特征(例如性别偏见)并进行计算,它可以帮助研究人员和开发人员在使用数据集之前更好地理解数据集,并帮助数据创建者提高数据质量 (例如消除 artifacts、偏见等);
统一性:DataLab 的主要目标之一是将不同的数据分析和处理操作统一到一个平台和 SDK 中;
可交互性:DataLab 使得数据查看、评估和处理更高效方便地完成 (实时搜索、对比、过滤、生成数据集诊断报告)。DataLab 也可以作为现成的标注平台,用户可以在这里贡献一些缺失但重要的可众包信息;
启发性:DataLab 对数据集的全局视角可以激发新的研究方向,比如通过跟踪数据集的全球发展状况,并确定未来的发展方向。
性别偏见
仇恨言论
artifacts
(b)属性;(c)同一个数据集Prompts在不同PLM上的结果
探索并包含更多不同的数据类型。目前,DataLab 仅包含文本类型的数据集,随着进一步优化,DataLab 将逐渐支持其他领域不同类型的数据集,例如图像、多模态和声音等;
扩展更多的操作。目前,DataLab 包含的操作有预处理、prompting、数据编辑等操作。随着引入不同任务的系统,DataLab 有望探索系统组合等技术,实现高精度的自动数据标注,从而一定程度上为用户减少数据标注的成本;
促进该领域更好的进步。不同平台的统一能够让用户快速找到相关数据集(数据集推荐),定位合适的数据集(数据可理解性),快速进行数据的处理(预处理、prompting 等),从而一定程度上让学术研究更容易。