-
[Paper] ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text GenerationML engineer/Papers & CS generals 2023. 1. 5. 09:08๋ฐ์ํ
๐ 3 mins read
https://arxiv.org/abs/2210.13304
ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation
We study the text generation task under the approach of pre-trained language models (PLMs). Typically, an auto-regressive (AR) method is adopted for generating texts in a token-by-token manner. Despite many advantages of AR generation, it usually suffers f
arxiv.org
์๋์ปต ์์ฆ๊ณผ ์ฝ๊ฐ ๋ง๋ฌผ๋ ค์ ์๋ถ๋ค๋น์์ ์งํ๋ 2022 EMNLP ๋ ผ๋ฌธ ์ค์์ ํฅ๋ฏธ๋ก์ด NLG ๋ ผ๋ฌธ๋ค์ด ๋ช๊ฐ ์์ด์ ํ๋ ๊ฐ์ ธ์์ต๋๋ค.
# ํต์ฌ ์ ๋ฆฌ
Non-autoregressive(์ดํ NAR) generation ์ฐ๊ตฌ๋ก, BART ๋ชจ๋ธ์ ๊ทธ๋ฅ autoregressive ๋์ฝ๋ฉ ํ์๋ ๋ณด๋ค ์์ฝ ํ์คํฌ์์ ์ฑ๋ฅ์ ์ ์ฌํ๊ฒ ๋์ค๋ฉด์ ์ถ๋ก ์๋๋ 10๋ฐฐ ๊ฐ๋ ๋น ๋ฅด๋ค๊ณ ํ๋ค์.
์๋ฌด๋๋ ํ ํฐ์ ํ๋์ฉ ์์ฑํ๋ autoregressive ๋์ฝ๋ฉ ๋ณด๋ค๋ ํ๋ฒ์ ์ถ๋ก ์ผ๋ก ๋ฌธ์ฅ์ ํต์งธ๋ก ์์ฑํ๋ ์๋์ผ 10๋ฐฐ ๊ฐ๋ ๋น ๋ฅธ๊ฒ ์ฅ์ ์ด๊ฒ ๋ค์.NAR ์์ฑ ๋ฐฉ์์ ๋ํ ๊ด๋ จ ์ฐ๊ตฌ๋ก๋,
์ด๊ธฐ์ ๋จ์ํ ์ถ๋ก ์๋๋ฅผ ๊ฐ์ ํ๊ณ ์ ํ๋๊ฒ์ด๋ผ์ single inference ๋์ , N ๋ฒ์ ์ถ๋ก ์ ํตํด, ๋งค ์คํ ์ ์ฒด [mask] ํ ํฐ ์ค์ ํ ํฐ ๋ช๊ฐ์ฉ ์์ฑ ํ๋ฉด์ ์ ์ฐจ confidence๋ฅผ ๋์ด๋์์ผ๋ก, ๋ง์น ๋ฌธ์ฅ์ ์กฐ๊ธ์ฉ ๋ค๋ฌ์ด ๋๊ฐ๋๋ฏํ ๋ฐฉ์์ ์ฌ์ฉํ์ต๋๋ค.์ ์๋ ๊ธฐ์กด NAR ์ฐ๊ตฌ์์ token dependency๊ฐ ๋ฎ์๊ฒ์ ๋ฌธ์ ๋ก ๋ณด์์ต๋๋ค.
๋ฌด์จ ๋ง์ด๋ ํ๋ฉด, ๊ฒฐ๊ตญ ํ๋ฒ์ ํ ํฐ์ ์ข์์ ์ฐ๋ก ์์ฐจ์ ์ผ๋ก ์์ฑํ๋ autoregressive ๋ฐฉ์ ๋๋น, NAR์์ ํ ํฐ๊ฐ์ ์ฐ๊ด ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋ง ํ๊ธฐ๊ฐ ์ด๋ ต๋ค๋ ๊ฒ์ ๋๋ค. ๋ฌผ๋ก ์ถ๋ก ์ ๋ช์ฐจ๋ก ํ๋(์๋์ ์ผ๋ก autoregressive๋ณด๋ค๋ ์ ๊ฒ) ๋ฐฉ์์์๋ alignment ๋ฌธ์ ๋ก ํ์ด๋ผ ์๋ ์๊ฒ ์ง๋ง, ๋ฌธ์ฅ์ ๋ชจ๋ธ ์ถ๋ก ํ๋ฒ์ ์์ฑํ๊ฒ ๋๋ฉด ์ฝ์ง ์๊ฒ ์ฃ .## ํฌ์ธํธ1.
๋ฐ๋ผ์ ์ ์์ ์์ด๋์ด๋ (ํ์ฌ ๋์ธ์ธ transformer ๊ธฐ๋ฐ ์ธ์ด๋ชจ๋ธ ๊ตฌ์กฐ์ ๋์ฝ๋๋ฅผ ์ฌ์ฉํ๋ค๋ ์ ์ ) output ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ณผ์ ์์ ๋ชจ๋ ๋ ์ด์ด๋ฅผ ๊ฑฐ์น ๋ค์ ๋ง์ง๋ง ๋ ์ด์ด์์ ํ ํฐ์ ๊ฒฐ์ ํ๋ ๋์ , ๊ฐ ๋ ์ด์ด์์ ๋จผ์ ํ ํฐ์ ์์ฑํ๋ฉด, ํด๋น position์ hiddenstate๋ ๋ค์ ๋ ์ด์ด์์ ์ฐ์ฐ์ ํ์ง ์๊ณ copyํด์ ๋ด๋ ค์ฃผ๋๊ฒ์ ๋๋ค. ์ด๋ฐ ๋์ ํ ํฌ๋์ early exit์ด๋ผ๊ณ ํฉ๋๋ค. ๊ฐ ํ ํฐ์ ๋์ฝ๋ ๋ ์ด์ด์ ์ค๊ฐ ์ค๊ฐ์ ์์ธก ํ๊ฒ ๋ค๋๊ฒ์ ๋๋ค.
์ด๋ฐ ์์ฑ ๊ตฌ์กฐํ์๋ ๋จผ์ ์์ฑ๋ ํ ํฐ์ด ์๋ค์ ํ ํฐ ์์ธก์ dependency๋ฅผ ์ฃผ๊ฒ ๋๋๊ฒ์ด๊ณ ์.## ํฌ์ธํธ2.
์ฌ๊ธฐ์ ํ ํฐ์ด ๋ช ๋ฒ์งธ ๋ ์ด์ด์์ early exit ๋๋๋์ ๋ฐ๋ผ์ dependency๋ฅผ ์ฃผ๋ณ์ ์ผ๋ง๋งํผ ์ค ์ ์๋์ง๊ฐ ๋ฌ๋ผ์ง๋ ๋ฌธ์ ๊ฐ ์๊ธฐ ๋๋ฌธ์, ์ ์๋ LPLM์ด๋ผ๋ ์๋ก์ด LM pretraining objective๋ ์ ์ํฉ๋๋ค. ๊ฐ ํ ํฐ์ exit layer permutation์ ํตํด ์ด๋ฐ dependency๋ฅผ ๋ชจ๋ธ์ด ๋ ๋๊ฒ ๋ณด๋๋ก ํ๋ค๋ ์ ๋ต์ ๋๋ค.
์์ ๋ค์ด์ด๊ทธ๋จ์ ์ ์ฒด ๋ชจ๋ธ ๊ตฌ์กฐ์ธ๋ฐ, ๋์ฝ๋ ์ ๋ ฅ์ผ๋ก๋ [MASK] ์ ์ํ์ค๋ฅผ ์ ๋ ฅ ๋ฐ๊ณ , ๊ฐ ๋ ์ด์ด์์ early exit์ผ๋ก softmax๋ฅผ ์ฌ์ฉํฉ๋๋ค. Layer level exit ์ ์ฌ์ฉ๋๋ softmax ๋ ์ด์ด์์ ์ฌ์ฉ๋๋ $W_{c}$ ํ๋ผ๋ฏธํฐ๋ ๋ ์ด์ด๋ง๋ค ๋ ์ ๋ ์๊ณ , ๊ณตํต ํ๋ผ๋ฏธํฐ๋ก๋ ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
๋ ์ด์ด permutation์ ํตํด LPLM(Layer Permutation Language Modeling) ํ์ต์ ํ๋ ๋ฐฉ์์ ๋ํ๊ฒ๋ ๋ค์ด์ด๊ทธ๋จ์ ํตํด ์ดํดํ ์ ์๊ฒ ๋ค์.
# ์์ฝ
์ฅ์
1. ์ถ๋ก ์๋ ๊ฐ์ : ํ ๋ฒ์ ๋ชจ๋ธ ์ถ๋ก ์ผ๋ก ๋ฌธ์ฅ ์์ฑ
2. ๋ณ๋ดํ ๊ฐ๋ฅ์ฑ : Autoregressive ํ๊ธฐ ๋๋ฌธ์ batch๋ก ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ฐ๋ฅ
3. ๊ฐ๋จํ ๊ตฌํ : ๊ธฐ์กด์ language model ๊ตฌํ์ layer early exit ๋ง ๊ตฌํ์ ์ถ๊ฐ ํ๋ฉด BART์ธ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ก๋ ํ์ฅ์ด ์ฉ์ดํ๋ค.
4. Length prediction ๋ถํ์ : ๊ธฐ์กด์ NAR ๊ตฌํ๋ค์ ๋ณ๋๋ก length prediction์ ์๊ตฌํ์ผ๋, ELMER๋ [EOS] ํ ํฐ์ผ๋ก ์์์ ๊ธธ์ด๋ฅผ ์์ฑํ ์ ์๋ค. (๋ชจ๋ธ decoder ์ฌ์ด์ฆ์ ์ ์ฝ์ด ๋ฐ๋ฅด๊ฒ ์ง๋ง)๋จ์
1. ์ฌ์ ํ ์ฅ๋ฌธ์ ์์ฑ์๋ ๋ถ๋ฆฌ
2. Fintune ํ ๋ early exit ์ ๋ต์ ์ด๋ป๊ฒ ์ทจํ ์ง ๋ฐ๋ก ์ค๊ณ ํด์ผํ๋ ๋ฌธ์ :
- Pretrain ํ ๋๋ layer permutation์ผ๋ก ์ผ๋ฐํ ํ์ง๋ง, downstream task ํ์ต์์๋ ์๋ํ์ง ์์ ์ ์๋ค๊ณ ํ๋ค.# ๊ฐ์ธ์ ์ธ ๋๋
Evaluation์ ์์ฑ๋ ๋ฌธ์ฅ ์์ด ๋จ์ผ measure score๋ก๋ง ๋ณด์ธ๊ฒ์ด ์ข ๊ฑธ๋ฆฌ๋ค์. ๋ณดํต ์ด๋ฐ ์์ฑ ๋ ผ๋ฌธ์์ ์ ๋ง ์ฑ๋ฅ์ด ๊ต์ฅํ๋ค๊ณ ํ๋จ๋๋ฉด cherry-pick์ด๋ ๋ญ๋ ์ค์ ์์ฑ๋ ๋ฌธ์ฅ๋ค์ ๋น๊ตํ๋ ์์ผ๋ก ๋ณด์ฌ์ฃผ๋๋ฐ, ์ฌ๊ธฐ์ ๊ทธ๋ฅ BLEU๋ ROUGE ์ค์ฝ์ด๋ก๋ง ํ๊ฐ๋ฅผ ํ๋ค์.์๋ฌด๋๋ ๋ฌธ๋ฒ์ ์ผ๋ก ์ด์ํ ๋ฌธ์ฅ์ด ๋์ค์ง ์์๊น..ํ๋ ์ฐ๋ ค๊ฐ ์๋ค์. BLEU, ROUGE ๋ชจ๋ ์ด๋ฒ๊ณผ ๊ด๊ณ์์ด n-gram์ผ๋ก ํ๊ฐํ๋ ๋ฐฉ์์ด๋๊น์.๊ทธ๋๋ pretrain ์์ฒด๊ฐ LM ํ์ต์ด๋.. ์์ ์ด์ํ ๋ฌธ์ฅ์ด ๋์ค์ง ์์ผ๋ ค๋..๊ทธ๋๋ ๋จ์ ๋ณด๋ค ์ป๋ ์ฅ์ ์ด ํจ์ฌ ๋ง์ ์ฐ๊ตฌ๋ผ์ ๋ฌธ์ฅ ์์ฑ ๊ฒฐ๊ณผ๋ฅผ ํ๋ฒ ์ง์ ํ์ธํด ๋ณด๊ณ ์ถ๋ค์.์ ๋ฐ์ ์ธ ๋ฐฉ์์ ์กฐ๊ธ ๋ค๋ฅด์ง๋ง, ํต์ฌ ์์ด๋์ด๋ early exit์ด๋ผ๋ ์ ์์ ์๋ ์ฐ๊ตฌ์๋ ์ ์ฌํ๋ฐ, ๋น์ทํ ์๊ธฐ์ ๋น์ทํ ๊ฒฐ์ ์ฐ๊ตฌ๊ฐ ์ธ๊ณ ๊ณณ๊ณณ์์ ์งํ๋๋๊ฑธ ๋ณด๋ฉด ์ฐธ ์ฐ๊ตฌ๋ผ๋๊ฒ, ์ฌ๋ ์๊ฐ์ด๋ผ๋๊ฒ ๋น์ทํ๊ฐ ์ถ๊ณ ๊ทธ๋ ๋ค์.
Accelerating Text Generation with Confident Adaptive Language Modeling (CALM)
https://ai.googleblog.com/2022/12/accelerating-text-generation-with.html?m=1
Accelerating Text Generation with Confident Adaptive Language Modeling (CALM)
Posted by Tal Schuster, Research Scientist, Google Research Language models (LMs) are the driving force behind many recent breakthroughs in natural language processing. Models like T5, LaMDA, GPT-3, and PaLM have demonstrated impressive performance on vari
ai.googleblog.com
๊ฐ๋จํ ์์ฝํ๋ฉด, autoregressive ๋์ฝ๋ฉ์ ํ์ง๋ง, ๊ฐ ํ ํฐ ๋ง๋ค ๋ ์ด์ด๋ฅผ ์ ๋ถ ์ฐ์ฐํ์ง ์๊ณ ์ ๋นํ ์ฒ๋ฆฌํ๋ค๊ฐ early exitํด์ ๋์ฝ๋ฉ ์๋๋ฅผ boosting ํ๊ฒ ๋ค๋ ์์ด๋์ด์ ๋๋ค.
๋ฐ์ํ'ML engineer > Papers & CS generals' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Domain Name System (DNS) ๊ฐ์ (0) 2023.01.22 ๋ถ์ฐ ์์คํ ๋์์ธ (0) 2023.01.19 [Paper] One Embedder, Any Task: Instruction-Finetuned Text Embeddings (0) 2023.01.17 [์ค๋ฅํด๊ฒฐ] osX + python3 + SSL certificate Error (0) 2023.01.07 Consistency Model์ ์ข ๋ฅ (0) 2023.01.02