用GPT-3帮助增建数据NLI任务直接提升十个点

论文题目:WANLI:Worker and AI Collaboration for Natural Language Inference Dataset Creation

论文链接:https://swabhs.com/assets/pdf/wanli.pdf

1 人机如何合作?

整个方法的流程可以分成四个部分:

找难的样本;

让 GPT3 生成困难样本的同类型样本;

机器自动过滤;

人工检查和优化。

整体很符合直觉,但是我们看到会有两个疑问:

1. 什么是困难的样本?作者们之前的工作[1]为数据集设计了一张 data map:

萌屋作者: