-
[Paper] ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text GenerationML engineer/Papers & CS generals 2023. 1. 5. 09:08๋ฐ์ํ
๐ 3 mins read
https://arxiv.org/abs/2210.13304
์๋์ปต ์์ฆ๊ณผ ์ฝ๊ฐ ๋ง๋ฌผ๋ ค์ ์๋ถ๋ค๋น์์ ์งํ๋ 2022 EMNLP ๋ ผ๋ฌธ ์ค์์ ํฅ๋ฏธ๋ก์ด NLG ๋ ผ๋ฌธ๋ค์ด ๋ช๊ฐ ์์ด์ ํ๋ ๊ฐ์ ธ์์ต๋๋ค.
# ํต์ฌ ์ ๋ฆฌ
Non-autoregressive(์ดํ NAR) generation ์ฐ๊ตฌ๋ก, BART ๋ชจ๋ธ์ ๊ทธ๋ฅ autoregressive ๋์ฝ๋ฉ ํ์๋ ๋ณด๋ค ์์ฝ ํ์คํฌ์์ ์ฑ๋ฅ์ ์ ์ฌํ๊ฒ ๋์ค๋ฉด์ ์ถ๋ก ์๋๋ 10๋ฐฐ ๊ฐ๋ ๋น ๋ฅด๋ค๊ณ ํ๋ค์.
์๋ฌด๋๋ ํ ํฐ์ ํ๋์ฉ ์์ฑํ๋ autoregressive ๋์ฝ๋ฉ ๋ณด๋ค๋ ํ๋ฒ์ ์ถ๋ก ์ผ๋ก ๋ฌธ์ฅ์ ํต์งธ๋ก ์์ฑํ๋ ์๋์ผ 10๋ฐฐ ๊ฐ๋ ๋น ๋ฅธ๊ฒ ์ฅ์ ์ด๊ฒ ๋ค์.NAR ์์ฑ ๋ฐฉ์์ ๋ํ ๊ด๋ จ ์ฐ๊ตฌ๋ก๋,
์ด๊ธฐ์ ๋จ์ํ ์ถ๋ก ์๋๋ฅผ ๊ฐ์ ํ๊ณ ์ ํ๋๊ฒ์ด๋ผ์ single inference ๋์ , N ๋ฒ์ ์ถ๋ก ์ ํตํด, ๋งค ์คํ ์ ์ฒด [mask] ํ ํฐ ์ค์ ํ ํฐ ๋ช๊ฐ์ฉ ์์ฑ ํ๋ฉด์ ์ ์ฐจ confidence๋ฅผ ๋์ด๋์์ผ๋ก, ๋ง์น ๋ฌธ์ฅ์ ์กฐ๊ธ์ฉ ๋ค๋ฌ์ด ๋๊ฐ๋๋ฏํ ๋ฐฉ์์ ์ฌ์ฉํ์ต๋๋ค.์ ์๋ ๊ธฐ์กด NAR ์ฐ๊ตฌ์์ token dependency๊ฐ ๋ฎ์๊ฒ์ ๋ฌธ์ ๋ก ๋ณด์์ต๋๋ค.
๋ฌด์จ ๋ง์ด๋ ํ๋ฉด, ๊ฒฐ๊ตญ ํ๋ฒ์ ํ ํฐ์ ์ข์์ ์ฐ๋ก ์์ฐจ์ ์ผ๋ก ์์ฑํ๋ autoregressive ๋ฐฉ์ ๋๋น, NAR์์ ํ ํฐ๊ฐ์ ์ฐ๊ด ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋ง ํ๊ธฐ๊ฐ ์ด๋ ต๋ค๋ ๊ฒ์ ๋๋ค. ๋ฌผ๋ก ์ถ๋ก ์ ๋ช์ฐจ๋ก ํ๋(์๋์ ์ผ๋ก autoregressive๋ณด๋ค๋ ์ ๊ฒ) ๋ฐฉ์์์๋ alignment ๋ฌธ์ ๋ก ํ์ด๋ผ ์๋ ์๊ฒ ์ง๋ง, ๋ฌธ์ฅ์ ๋ชจ๋ธ ์ถ๋ก ํ๋ฒ์ ์์ฑํ๊ฒ ๋๋ฉด ์ฝ์ง ์๊ฒ ์ฃ .## ํฌ์ธํธ1.
๋ฐ๋ผ์ ์ ์์ ์์ด๋์ด๋ (ํ์ฌ ๋์ธ์ธ transformer ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ ๊ตฌ์กฐ์ ๋์ฝ๋๋ฅผ ์ฌ์ฉํ๋ค๋ ์ ์ ) output ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ณผ์ ์์ ๋ชจ๋ ๋ ์ด์ด๋ฅผ ๊ฑฐ์น ๋ค์ ๋ง์ง๋ง ๋ ์ด์ด์์ ํ ํฐ์ ๊ฒฐ์ ํ๋ ๋์ , ๊ฐ ๋ ์ด์ด์์ ๋จผ์ ํ ํฐ์ ์์ฑํ๋ฉด, ํด๋น position์ hiddenstate๋ ๋ค์ ๋ ์ด์ด์์ ์ฐ์ฐ์ ํ์ง ์๊ณ copyํด์ ๋ด๋ ค์ฃผ๋๊ฒ์ ๋๋ค. ์ด๋ฐ ๋์ ํ ํฌ๋์ early exit์ด๋ผ๊ณ ํฉ๋๋ค. ๊ฐ ํ ํฐ์ ๋์ฝ๋ ๋ ์ด์ด์ ์ค๊ฐ ์ค๊ฐ์ ์์ธก ํ๊ฒ ๋ค๋๊ฒ์ ๋๋ค.
์ด๋ฐ ์์ฑ ๊ตฌ์กฐํ์๋ ๋จผ์ ์์ฑ๋ ํ ํฐ์ด ์๋ค์ ํ ํฐ ์์ธก์ dependency๋ฅผ ์ฃผ๊ฒ ๋๋๊ฒ์ด๊ณ ์.## ํฌ์ธํธ2.
์ฌ๊ธฐ์ ํ ํฐ์ด ๋ช ๋ฒ์งธ ๋ ์ด์ด์์ early exit ๋๋๋์ ๋ฐ๋ผ์ dependency๋ฅผ ์ฃผ๋ณ์ ์ผ๋ง๋งํผ ์ค ์ ์๋์ง๊ฐ ๋ฌ๋ผ์ง๋ ๋ฌธ์ ๊ฐ ์๊ธฐ ๋๋ฌธ์, ์ ์๋ LPLM์ด๋ผ๋ ์๋ก์ด LM pretraining objective๋ ์ ์ํฉ๋๋ค. ๊ฐ ํ ํฐ์ exit layer permutation์ ํตํด ์ด๋ฐ dependency๋ฅผ ๋ชจ๋ธ์ด ๋ ๋๊ฒ ๋ณด๋๋ก ํ๋ค๋ ์ ๋ต์ ๋๋ค.
์์ ๋ค์ด์ด๊ทธ๋จ์ ์ ์ฒด ๋ชจ๋ธ ๊ตฌ์กฐ์ธ๋ฐ, ๋์ฝ๋ ์ ๋ ฅ์ผ๋ก๋ [MASK] ์ ์ํ์ค๋ฅผ ์ ๋ ฅ ๋ฐ๊ณ , ๊ฐ ๋ ์ด์ด์์ early exit์ผ๋ก softmax๋ฅผ ์ฌ์ฉํฉ๋๋ค. Layer level exit ์ ์ฌ์ฉ๋๋ softmax ๋ ์ด์ด์์ ์ฌ์ฉ๋๋ $W_{c}$ ํ๋ผ๋ฏธํฐ๋ ๋ ์ด์ด๋ง๋ค ๋ ์ ๋ ์๊ณ , ๊ณตํต ํ๋ผ๋ฏธํฐ๋ก๋ ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
๋ ์ด์ด permutation์ ํตํด LPLM(Layer Permutation Language Modeling) ํ์ต์ ํ๋ ๋ฐฉ์์ ๋ํ๊ฒ๋ ๋ค์ด์ด๊ทธ๋จ์ ํตํด ์ดํดํ ์ ์๊ฒ ๋ค์.
# ์์ฝ
์ฅ์
1. ์ถ๋ก ์๋ ๊ฐ์ : ํ ๋ฒ์ ๋ชจ๋ธ ์ถ๋ก ์ผ๋ก ๋ฌธ์ฅ ์์ฑ
2. ๋ณ๋ดํ ๊ฐ๋ฅ์ฑ : Autoregressive ํ๊ธฐ ๋๋ฌธ์ batch๋ก ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ฐ๋ฅ
3. ๊ฐ๋จํ ๊ตฌํ : ๊ธฐ์กด์ language model ๊ตฌํ์ layer early exit ๋ง ๊ตฌํ์ ์ถ๊ฐ ํ๋ฉด BART์ธ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ก๋ ํ์ฅ์ด ์ฉ์ดํ๋ค.
4. Length prediction ๋ถํ์ : ๊ธฐ์กด์ NAR ๊ตฌํ๋ค์ ๋ณ๋๋ก length prediction์ ์๊ตฌํ์ผ๋, ELMER๋ [EOS] ํ ํฐ์ผ๋ก ์์์ ๊ธธ์ด๋ฅผ ์์ฑํ ์ ์๋ค. (๋ชจ๋ธ decoder ์ฌ์ด์ฆ์ ์ ์ฝ์ด ๋ฐ๋ฅด๊ฒ ์ง๋ง)๋จ์
1. ์ฌ์ ํ ์ฅ๋ฌธ์ ์์ฑ์๋ ๋ถ๋ฆฌ
2. Fintune ํ ๋ early exit ์ ๋ต์ ์ด๋ป๊ฒ ์ทจํ ์ง ๋ฐ๋ก ์ค๊ณ ํด์ผํ๋ ๋ฌธ์ :
- Pretrain ํ ๋๋ layer permutation์ผ๋ก ์ผ๋ฐํ ํ์ง๋ง, downstream task ํ์ต์์๋ ์๋ํ์ง ์์ ์ ์๋ค๊ณ ํ๋ค.# ๊ฐ์ธ์ ์ธ ๋๋
Evaluation์ ์์ฑ๋ ๋ฌธ์ฅ ์์ด ๋จ์ผ measure score๋ก๋ง ๋ณด์ธ๊ฒ์ด ์ข ๊ฑธ๋ฆฌ๋ค์. ๋ณดํต ์ด๋ฐ ์์ฑ ๋ ผ๋ฌธ์์ ์ ๋ง ์ฑ๋ฅ์ด ๊ต์ฅํ๋ค๊ณ ํ๋จ๋๋ฉด cherry-pick์ด๋ ๋ญ๋ ์ค์ ์์ฑ๋ ๋ฌธ์ฅ๋ค์ ๋น๊ตํ๋ ์์ผ๋ก ๋ณด์ฌ์ฃผ๋๋ฐ, ์ฌ๊ธฐ์ ๊ทธ๋ฅ BLEU๋ ROUGE ์ค์ฝ์ด๋ก๋ง ํ๊ฐ๋ฅผ ํ๋ค์.์๋ฌด๋๋ ๋ฌธ๋ฒ์ ์ผ๋ก ์ด์ํ ๋ฌธ์ฅ์ด ๋์ค์ง ์์๊น..ํ๋ ์ฐ๋ ค๊ฐ ์๋ค์. BLEU, ROUGE ๋ชจ๋ ์ด๋ฒ๊ณผ ๊ด๊ณ์์ด n-gram์ผ๋ก ํ๊ฐํ๋ ๋ฐฉ์์ด๋๊น์.๊ทธ๋๋ pretrain ์์ฒด๊ฐ LM ํ์ต์ด๋.. ์์ ์ด์ํ ๋ฌธ์ฅ์ด ๋์ค์ง ์์ผ๋ ค๋..๊ทธ๋๋ ๋จ์ ๋ณด๋ค ์ป๋ ์ฅ์ ์ด ํจ์ฌ ๋ง์ ์ฐ๊ตฌ๋ผ์ ๋ฌธ์ฅ ์์ฑ ๊ฒฐ๊ณผ๋ฅผ ํ๋ฒ ์ง์ ํ์ธํด ๋ณด๊ณ ์ถ๋ค์.์ ๋ฐ์ ์ธ ๋ฐฉ์์ ์กฐ๊ธ ๋ค๋ฅด์ง๋ง, ํต์ฌ ์์ด๋์ด๋ early exit์ด๋ผ๋ ์ ์์ ์๋ ์ฐ๊ตฌ์๋ ์ ์ฌํ๋ฐ, ๋น์ทํ ์๊ธฐ์ ๋น์ทํ ๊ฒฐ์ ์ฐ๊ตฌ๊ฐ ์ธ๊ณ ๊ณณ๊ณณ์์ ์งํ๋๋๊ฑธ ๋ณด๋ฉด ์ฐธ ์ฐ๊ตฌ๋ผ๋๊ฒ, ์ฌ๋ ์๊ฐ์ด๋ผ๋๊ฒ ๋น์ทํ๊ฐ ์ถ๊ณ ๊ทธ๋ ๋ค์.
Accelerating Text Generation with Confident Adaptive Language Modeling (CALM)
https://ai.googleblog.com/2022/12/accelerating-text-generation-with.html?m=1
๊ฐ๋จํ ์์ฝํ๋ฉด, autoregressive ๋์ฝ๋ฉ์ ํ์ง๋ง, ๊ฐ ํ ํฐ ๋ง๋ค ๋ ์ด์ด๋ฅผ ์ ๋ถ ์ฐ์ฐํ์ง ์๊ณ ์ ๋นํ ์ฒ๋ฆฌํ๋ค๊ฐ early exitํด์ ๋์ฝ๋ฉ ์๋๋ฅผ boosting ํ๊ฒ ๋ค๋ ์์ด๋์ด์ ๋๋ค.
๋ฐ์ํ'ML engineer > Papers & CS generals' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Domain Name System (DNS) ๊ฐ์ (0) 2023.01.22 ๋ถ์ฐ ์์คํ ๋์์ธ (0) 2023.01.19 [Paper] One Embedder, Any Task: Instruction-Finetuned Text Embeddings (0) 2023.01.17 [์ค๋ฅํด๊ฒฐ] osX + python3 + SSL certificate Error (0) 2023.01.07 Consistency Model์ ์ข ๋ฅ (0) 2023.01.02