[Paper] ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation

naubull2 2023. 1. 5. 09:08

🕓 3 mins read

ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation

We study the text generation task under the approach of pre-trained language models (PLMs). Typically, an auto-regressive (AR) method is adopted for generating texts in a token-by-token manner. Despite many advantages of AR generation, it usually suffers f

arxiv.org

월드컵 시즌과 약간 맞물려서 아부다비에서 진행된 2022 EMNLP 논문 중에서 흥미로운 NLG 논문들이 몇개 있어서 하나 가져왔습니다.

# 핵심 정리

Non-autoregressive(이하 NAR) generation 연구로, BART 모델을 그냥 autoregressive 디코딩 했을때 보다 요약 태스크에서 성능은 유사하게 나오면서 추론 속도는 10배 가량 빠르다고 하네요.
아무래도 토큰을 하나씩 생성하는 autoregressive 디코딩 보다는 한번의 추론으로 문장을 통째로 생성하니 속도야 10배 가량 빠른게 장점이겠네요.

NAR 생성 방식에 대한 관련 연구로는,
초기엔 단순히 추론 속도를 개선하고자 했던것이라서 single inference 대신, N 번의 추론을 통해, 매 스텝 전체 [mask] 토큰 중에 토큰 몇개씩 생성 하면서 점차 confidence를 높이는식으로, 마치 문장을 조금씩 다듬어 나가는듯한 방식을 사용했습니다.

저자는 기존 NAR 연구에서 token dependency가 낮은것을 문제로 보았습니다.
무슨 말이냐 하면, 결국 한번에 토큰을 좌에서 우로 순차적으로 생성하는 autoregressive 방식 대비, NAR에선 토큰간의 연관 관계를 모델링 하기가 어렵다는 것입니다. 물론 추론을 몇차례 하는(상대적으로 autoregressive보다는 적게) 방식에서는 alignment 문제로 풀어낼 수도 있겠지만, 문장을 모델 추론 한번에 생성하게 되면 쉽지 않겠죠.

## 포인트1.

따라서 저자의 아이디어는 (현재 대세인 transformer 기반 언어모델 구조의 디코더를 사용한다는 전제) output 문장을 생성하는 과정에서 모든 레이어를 거친 다음 마지막 레이어에서 토큰을 결정하는 대신, 각 레이어에서 먼저 토큰을 생성하면, 해당 position의 hiddenstate는 다음 레이어에서 연산을 하지 않고 copy해서 내려주는것입니다. 이런 동작 테크닉을 early exit이라고 합니다. 각 토큰을 디코더 레이어의 중간 중간에 예측 하겠다는것입니다.
이런 생성 구조하에는 먼저 생성된 토큰이 앞뒤의 토큰 예측에 dependency를 주게 되는것이고요.

## 포인트2.

여기에 토큰이 몇 번째 레이어에서 early exit 되느냐에 따라서 dependency를 주변에 얼마만큼 줄 수 있는지가 달라지는 문제가 있기 때문에, 저자는 LPLM이라는 새로운 LM pretraining objective도 제안합니다. 각 토큰의 exit layer permutation을 통해 이런 dependency를 모델이 더 넓게 보도록 한다는 전략입니다.

위의 다이어그램은 전체 모델 구조인데, 디코더 입력으로는 [MASK] 의 시퀀스를 입력 받고, 각 레이어에서 early exit으로 softmax를 사용합니다. Layer level exit 에 사용되는 softmax 레이어에서 사용되는 $W_{c}$ 파라미터는 레이어마다 둘 수 도 있고, 공통 파라미터로도 사용 가능합니다.

레이어 permutation을 통해 LPLM(Layer Permutation Language Modeling) 학습을 하는 방식에 대한것도 다이어그램을 통해 이해할 수 있겠네요.

# 요약

장점

1. 추론 속도 개선 : 한 번의 모델 추론으로 문장 생성
2. 병럴화 가능성 : Autoregressive 하기 때문에 batch로 병렬 처리 가능
3. 간단한 구현 : 기존의 language model 구현에 layer early exit 만 구현을 추가 하면 BART외에 다른 모델로도 확장이 용이하다.
4. Length prediction 불필요 : 기존의 NAR 구현들은 별도로 length prediction을 요구했으나, ELMER는 [EOS] 토큰으로 임의의 길이를 생성할 수 있다. (모델 decoder 사이즈에 제약이 따르겠지만)

단점

1. 여전히 장문을 생성에는 불리
2. Fintune 할때 early exit 전략을 어떻게 취할지 따로 설계 해야하는 문제:
- Pretrain 할때는 layer permutation으로 일반화 하지만, downstream task 학습시에는 작동하지 않을 수 있다고 한다.

# 개인적인 느낌

Evaluation을 생성된 문장 없이 단일 measure score로만 보인것이 좀 걸리네요. 보통 이런 생성 논문에서 정말 성능이 굉장하다고 판단되면 cherry-pick이든 뭐든 실제 생성된 문장들을 비교하는 식으로 보여주는데, 여기선 그냥 BLEU나 ROUGE 스코어로만 평가를 하네요.

아무래도 문법적으로 이상한 문장이 나오진 않을까..하는 우려가 있네요. BLEU, ROUGE 모두 어법과 관계없이 n-gram으로 평가하는 방식이니까요.

그래도 pretrain 자체가 LM 학습이니.. 완전 이상한 문장이 나오진 않으려나..

그래도 단점 보다 얻는 장점이 훨씬 많은 연구라서 문장 생성 결과를 한번 직접 확인해 보고 싶네요.

전반적인 방식은 조금 다르지만, 핵심 아이디어는 early exit이라는 점에서 아래 연구와도 유사한데, 비슷한 시기에 비슷한 결의 연구가 세계 곳곳에서 진행되는걸 보면 참 연구라는게, 사람 생각이라는게 비슷한가 싶고 그렇네요.

Accelerating Text Generation with Confident Adaptive Language Modeling (CALM)

https://ai.googleblog.com/2022/12/accelerating-text-generation-with.html?m=1

Accelerating Text Generation with Confident Adaptive Language Modeling (CALM)

Posted by Tal Schuster, Research Scientist, Google Research Language models (LMs) are the driving force behind many recent breakthroughs in natural language processing. Models like T5, LaMDA, GPT-3, and PaLM have demonstrated impressive performance on vari

ai.googleblog.com

간단히 요약하면, autoregressive 디코딩을 하지만, 각 토큰 마다 레이어를 전부 연산하진 않고 적당히 처리하다가 early exit해서 디코딩 속도를 boosting 하겠다는 아이디어입니다.

저작자표시 비영리 변경금지 (새창열림)