Author: Albert Webson, Ellie Pavlick
Paper Link(arXiv): https://arxiv.org/abs/2109.01247
Paper Link(NAACL): https://openreview.net/forum?id=BhGMkxhZrW9
Code: https://github.com/awebson/prompt_semantics
[NAVER AI Lab하정우 박사님 Weekly arXiv 소개내용 참고]
- Large LM에서 prompt-based learning이 잘되는것이 prompt에 포함된 task instruction의 효과라고 생각해왔는데 이게 정말 그러한지를 실험적으로 분석함.
- Prompt는 위와 같은 task와 연관되거나 관련없는 등 다양한 카테고리의 템플릿을 사용.
- 위 표는 실험 결과로서, 체크표시는 instructive한 prompt가 그렇지 못한 prompt대비 통계적으로 유의하게 차이가 나는 경우를 의미.
- 결과적으로 intrunction과는 성능이 크게 차이 없다는 놀라운 사실과 함께, 마지막 컬럼을 통해 prompt가 있기만 하면 few-shot 성능은 좋아진다는 것을 확인. 즉, LLM은 prompt의 instruction을 이해한것이 아니라는 기존의 생각과 반하는 결과. 특히 GPT-3는 체크표시가 없음.