作者:本刊讯自然语言理解数据集谷歌paws训练数据精度提高释义语言
摘要:近日,谷歌了包含7种语言释义对的全新数据集PAWS与PAWS-X。BERT通过该数据集的训练,在释义对问题上的精度实现了约3倍的提升,其他先进的模型也能够利用该数据集将精度提高到85%-90%。识别一对句子是否为释义对的任务则被称为释义识别,这一任务对于许多实际应用中的自然语言理解而言是非常重要的,例如:常见的问答任务等。但是,目前即使是最先进的模型(如BERT),如果仅在现有的自然语言理解数据集上进行训练,并不能正确地识别大部分非释义对之间的差异。其中很大的原因是由于在现有自然语言理解数据集中,缺少诸如此类的训练数据。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社