Created at : 2025-04-10 15:49
Auther: Soo.Y
๐๋ฉ๋ชจ
Day1 ์๋ฃ
- Whitepaper Companion Podcast - Foundational LLMs & Text Generation
- Foundational Large Language Models & Text Generation | Kaggle
Large language models
๊ฑฐ๋์ธ์ด๋ชจ๋ธ์ ๋จ์ด ์คํ์ค์ ํ๋ฅ ์ ์์ธกํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ํ ์คํธ์ ์ ๋์ฌ๊ฐ ์ฃผ์ด์ง๋ฉด ์ธ์ด ๋ชจ๋ธ์ ํ์ ๋จ์ด์ ํ๋ฅ ์ ๊ณ์ฐํ๋ค. ์๋ฅผ ๋ค์ด โ๋ฏธ๊ตญ์์ ๊ฐ์ฅ ์ ๋ช ํ ๋์๋โฆโ ์ด๋ผ๋ ์ ๋์ฌ๊ฐ ์ฃผ์ด์ง ์ธ์ด ๋ชจ๋ธ์ โ๋ด์โ ๋ฐ โ๋ก์ค์ค์ ค๋ ์คโ๋ผ๋ ๋จ์ด์ ๋์ ํ๋ฅ ์ด ๋ํ๋๊ณ โ์ฌ๊ณผโ, โ๋ ธํธ๋ถโ์ ๊ฐ์ ๋จ์ด๋ค๋ ๋ฎ์ ํ๋ฅ ์ ์์ธกํ๋ค. Transformer๊ฐ ์ฐ๊ตฌ๋๊ธฐ ์ ์๋ ์ํ ์ ๊ฒฝ๋ง(RNN)์ด ์ํ์ค ๋ชจ๋ธ๋ง์ ๋ํ ์ธ๊ธฐ ์๋ ์ ๊ทผ ๋ฐฉ์์ด์์ต๋๋ค. RNN์ ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ์ํ์ค๋ฅผ ์์ฐจ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ค. ์ด์ ์๋ ์ํ์ ํ์ฌ ์ ๋ ฅ์ ๋ฐ๋ผ ์๋ ์ํ ์ํ์ค๋ฅผ ์์ฑํ๋ค. RNN ๋จ์ ์ผ๋ก ์์ฐจ์ ์ธ ๊ณ์ฐ์ผ๋ก ์ธํด ๋ณ๋ ฌํํ๊ธฐ ์ด๋ ต๋ค. ํธ๋์คํฌ๋จธ(Transformer)๋ self-attention ๋ฉ์ปค๋์ฆ ๋๋ถ์ ํ ํฐ ์ํ์ค๋ฅผ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ ์ ์๋ ์ ๊ฒฝ๋ง์ ํ ์ ํ์ด๋ค. ๋ค๋ง ํธ๋์คํฌ๋จธ๋ ์ปจํ ์คํธ ํฌ๊ธฐ๋ฅผ ์ ํ์ ์ผ๋ก ์ฌ์ฉํด์ผ ํ๋ ๋จ์ ์ ๊ฐ์ง๊ณ ์๋ค. ๋ฐ๋ฉด์ RNN์ ์ด๋ก ์ ์ผ๋ก ๋ฌดํํ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ๊ฐ์ง ์ ์์ง๋ง, ๊ทธ๋๋์ธํธ ์์ค๋ก ์ธํด ํ์ฉํ๋๋ฐ ์ด๋ ค์์ด ๋ง๋ค. ๊ทธ๋์ ํธ๋์คํฌ๋จธ๋ ์ต๊ทผ ๋ช ๋ ๋์ ๊ฑฐ๋์ธ์ด๋ชจ๋ธ์์ ์ฑํ๋๊ณ ์๋ค.
Transformer
Transformer architecture์ 2017๋ ์ ๋ฒ์ญ ๋ชจ๋ธ ์ฌ์ฉ์ ์ํด ๊ตฌ๊ธ์์ ๊ฐ๋ฐ๋์๋ค. ์ด๊ธฐ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ ์ธ์ฝ๋์ ๋์ฝ๋์ 2 ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋์๋ค. ์ธ์ฝ๋๋ ์ ๋ ฅ ํ ์คํธ(์ ํ๋์ค์ด ๋ฌธ์ฅ)๋ฅผ ๋ณํํ๊ณ ๋ณํ๋ ๊ฐ์ด ๋์ฝ๋์ ์ ๋ฌ๋๋ค. ๋์ฝ๋๋ ์ด ํํ์ ์ฌ์ฉํ์ฌ ์ถ๋ ฅ ํ ์คํธ(์: ๋ฒ์ญ๋ ๋ฌธ์ฅ)๋ฅผ ์๊ธฐ ํ๊ท์ ์ผ๋ก ์์ฑํ๋ค. ์ ์ฒด์ ์ธ ๊ตฌ์กฐ๋ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค.
ํธ๋์คํฌ๋จธ๋ ์ฌ๋ฌ ๊ณ์ธต์ผ๋ก ๊ตฌ์ฑ๋๋ค. ์ ๊ฒฝ๋ง์ ๊ณ์ธต์ ๋ฐ์ดํฐ์ ํน์ ๋ณํ์ ์ํํ๋ ๋งค๊ฐ๋ณ์์ ์งํฉ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด Multi-Head Attention, Add & Norm, Feed-Forward, Linear, Softmax ๋ฑ ์ฌ๋ฌ ๊ณ์ธต์ด ํฌํจ๋์ด ์๋ค. ๊ณ์ธต์ ์ ๋ ฅ, ์จ๊ฒจ์ง ๋ฐ ์ถ๋ ฅ ๊ณ์ธต์ผ๋ก ์ธ๋ถํํ ์ ์๋ค.
Input preparation and embedding
ํธ๋์คํฌ๋จธ๋ฅผ ์ํ ์ธ์ด ์ ๋ ฅ์ ์ค๋นํ๊ธฐ ์ํด์ ์ ๋ ฅ ์ํ์ค๋ฅผ ํ ํฐ์ผ๋ก ๋ณํํ ๋ค์ ์ ๋ ฅ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํ๋ค. ์ ๋ ฅ ์ ๋ฒ ๋ฉ์ ์์ฑํ๋ ๊ณผ์ ์๋ ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๊ฐ ํฌํจ๋๋ค.
- ์ ๊ทํ(์ ํ์ฌํญ) : ๋ถํ์ํ ๊ณต๋ฐฑ, ์ ์ผํธ ๋ฑ์ ์ ๊ฑฐํ์ฌ ํ ์คํธ๋ฅผ ํ์คํํ๋ค.
- ํ ํฐํ : ๋ฌธ์ฅ์ ๋จ์ด ๋๋ ์๋ธ์๋๋ก ๋๋๊ณ ์ดํ์์ ์ ์ ํ ํฐ ID๋ก ๋งคํ ํ๋ค.
- ์๋ฒ ๋ฉ : ๊ฐ ํ ํฐ ID๋ฅผ ํด๋น ๊ณ ์ฐจ์ ๋ฒกํฐ๋ก ๋ณํํ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก ๋ฃฉ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ฌํ ๋ฒกํฐ๋ ํ๋ จ ๊ณผ์ ์์ ํ์ต๋๋ค.
- ์์น ์ธ์ฝ๋ฉ : ์คํ์ค์์ ๊ฐ ํ ํฐ์ ์์น์ ๋ํ ์ ๋ณด๋ฅผ ์ถ๊ฐํ๋ค.
Multi-head attention
์ ๋ ฅ ํ ํฐ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ๋ณํํ ํ, ์ด ์๋ฒ ๋ฉ์ ๋ค์ค ํค๋ ์ดํ ์ ๋ชจ๋์ ์ ๋ ฅํ๋ค. self-attention์ ํธ๋์คํฌ๋จธ์์ ์ค์ํ ๋ฉ์ปค๋์ฆ์ด๋ค. ์ ๋ ฅ ์ํ์ค์ ํน์ ๋ถ๋ถ์ ์ง์คํ๊ณ , ๊ธฐ์กด์ RNN๋ณด๋ค ์คํ์ค ๋ด์ ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ ๋ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ ์ ์๋ค.
Understanding self-attention
๋ค์ ๋ฌธ์ฅ์ ์์๋ก ์ฌ์ฉํด๋ณด์. โThe tiger jumped out of a tree to get a drink because it was thirsty.โ self-attention์ ๋ฌธ์ฅ์์ ๋จ์ด์ ๊ตฌ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ๋๋ฐ ๋์์ด ๋๋ค. ์๋ฅผ ๋ค์ด ์ด ๋ฌธ์ฅ์์ โtigerโ์ โitโ์ ๋์ผํ ๊ฐ์ฒด์ด๋ฏ๋ก ์ด ๋ ๋จ์ด๋ ๊ฐํ๊ฒ ์ฐ๊ฒฐ๋์ด ์์ ๊ฒ์ผ๋ก ์์๋๋ค. self-attention๋ ๋ค์ ๋จ๊ณ๋ฅผ ํตํด ์ด๋ฅผ ๋ฌ์ฑํ๋ค.
-
์ฟผ๋ฆฌ(Query), ํค(Key), ๊ฐ(Value)์ ์์ฑํ๋ค. ์ ๋ ฅ ์๋ฒ ๋ฉ ๊ฐ๊ฐ์ ํ์ต๋ ๊ฐ์ค์น ํ๋ ฌ 3๊ฐ(Wq, Wk, Wv)์ ๊ณฑํ์ฌ Q, K, V ๋ฒกํฐ๋ฅผ ์์ฑํ๋ค. ์ด๋ค์ ๊ฐ ๋จ์ด์ ์ ๋ฌธํ๋ ํํ๊ณผ ์ ์ฌํ๋ค.
- ์ฟผ๋ฆฌ : ์ฟผ๋ฆฌ ๋ฒกํฐ๋ ๋ชจ๋ธ์ด โ์ด๋ค ๋ค๋ฅธ ๋จ์ด๋ค์ด ์ ์๊ฒ ๊ด๋ จ์ด ์์ต๋๊น?โ๋ผ๋ ์ง๋ฌธ์ ๋์ง๋๋ฐ ๋์์ด ๋๋ค.
- ํค : ํค ๋ฒกํฐ๋ ๋ชจ๋ธ์ด ์คํ์ค์์ ๋จ์ด๊ฐ ๋ค๋ฅธ ๋จ์ด์ ์ด๋ป๊ฒ ๊ด๋ จ๋ ์ ์๋์ง ์๋ณํ๋ ๋ฐ ๋์์ด ๋๋ ๋ ์ด๋ธ๊ณผ ๊ฐ๋ค.
- ๊ฐ : ๊ฐ ๋ฒกํฐ๋ ์ค์ ๋จ์ด ๋ด์ฉ ์ ๋ณด๋ฅผ ๋ณด์ ํ๋ค.
-
์ ์ ๊ณ์ฐ : ์ ์๋ ๊ฐ ๋จ์ด๊ฐ ๋ค๋ฅธ ๋จ์ด์ ์ผ๋ง๋ โ์ฃผ์โํด์ผ ํ๋์ง๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด ๊ณ์ฐ๋๋ค. ์ด๋ ํ ๋จ์ด์ ์ฟผ๋ฆฌ ๋ฒกํฐ๋ฅผ ์ํ์ค์ ๋ชจ๋ ๋จ์ด์ ํค ๋ฒกํฐ์ ๋ด์ ํจ์ผ๋ก์จ ์ํ๋๋ค.
-
์ ๊ทํ : ์์ ์ฑ์ ์ํด ํค ๋ฒกํฐ ์ฐจ์(dk)์ ์ ๊ณฑ๊ทผ์ผ๋ก ์ ์๋ฅผ ๋๋ ๋ค์ ์ํํธ๋งฅ์ค ํจ์๋ฅผ ํตํด attention ๊ฐ์ค์น๋ฅผ ์ป๋๋ค. ์ด๋ฌํ ๊ฐ์ค์น๋ ๊ฐ ๋จ์ด๊ฐ ๋ค๋ฅธ ๋จ์ด์ ์ผ๋ง๋ ๊ฐํ๊ฒ ์ฐ๊ฒฐ๋์ด ์๋์ง ์๋ฏธํ๋ค.
-
๊ฐ์ค์น ๋ถ์ฌ๋ ๊ฐ : ๊ฐ Value ๋ฒกํฐ๋ ํด๋น ์ดํ ์ ๊ฐ์ค์น์ ๊ณฑํด์ง๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ ๋ํด ๊ฐ ๋จ์ด์ ๋ํ ๋ฌธ๋งฅ ์ธ์ ํํ์ ์์ฑํ๋ค.
์ค์ ๋ก๋ ์ฟผ๋ฆฌ, ํค, ๊ฐ ๋ฒกํฐ๋ฅผ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๋ชจ๋ ํ ํฐ์ ๋ํด Q, K, V ํ๋ ฌ๋ก ๋ง๋ค๊ณ ๋์์ ๊ณ์ฐ์ด ์ํ๋๋ค.
Multi-head attention: power in diversity
Multi-head attention์ ์ฌ๋ฌ ๊ฐ์ Q, K, V ๊ฐ์ค์น ํ๋ ฌ ์ธํธ๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ค์ ๋ณ๋ ฌ๋ก ์คํ๋๋ฉฐ, ๊ฐ โํค๋(Head)โ๋ ์ ๋ ฅ ๊ด๊ณ์ ์๋ก ๋ค๋ฅธ ์ธก๋ฉด์ ์ง์คํ ์ ์๋ค. ๊ฐ ํค๋์์ ์ถ๋ ฅ๋ ๊ฐ์ ์ฐ๊ฒฐ๋๊ณ ์ ํ๋ณํ๋์ด ๋ชจ๋ธ์ ์ ๋ ฅ ์ํ์ค์ ํ๋ถํ ํํ์ ์ ๊ณตํ๋ค. Multi-head attention์ ์ฌ์ฉ์ ๋ชจ๋ธ์ ๋ณต์กํ ์ธ์ด ํจํด ๋ฐ ์ฅ๊ฑฐ๋ฆฌ ์ข ์์ฑ์ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ์ ํฅ์์ํจ๋ค. ์ด๋ ๊ธฐ๊ณ ๋ฒ์ญ, ํ ์คํธ ์์ฝ, ์ง์ ์๋ต๊ณผ ๊ฐ์ ๋ฏธ๋ฌํ ์ธ์ด ๊ตฌ์กฐ ๋ฐ ๋ด์ฉ ์ดํด๊ฐ ํ์ํ ์์ ์ ๋งค์ฐ ์ค์ํ๋ค. ์ด ๋ฉ์ปค๋์ฆ์ ํธ๋์คํฌ๋จธ๊ฐ ์ ๋ ฅ์ ์ฌ๋ฌ ํด์ ๋ฐ ํํ์ ๊ณ ๋ คํ ์ ์๋๋ก ํ๋ค.
Layer normalization and residual connections
ํธ๋์คํฌ๋จธ์ ๊ฐ ๋ ์ด์ด๋ Multi-head attention ๋ชจ๋๊ณผ feed-forward ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๋ ์ด์ด ์ ๊ทํ(Layer normalization)์ ์์ฐจ ์ฐ๊ฒฐ(residual connections)์ ์ฌ์ฉํ๋ค. ๋ ์ด์ด ์ ๊ทํ๋ ์ฃผ์ด์ง ๋ ์ด์ด์ ํ์ฑํ๋ฅผ ์ ๊ทํํ๊ธฐ ์ํด ํ์ฑํ ํจ์์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ณ์ฐํ๋ค. ์ด๋ ์ผ๋ฐ์ ์ผ๋ก covariate shift๋ฅผ ์ค์ด๊ณ ํ์ต ์ค ๋ ๋น ๋ฅธ ์๋ ด์ ๋ฌ์ฑํ๊ณ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ์ํํ๋ค.
Feedforward layer
Multi-head attention ๋ชจ๋๊ณผ ์ดํ์ Add and Norm ๋ ์ด์ด์ ์ถ๋ ฅ์ ๊ฐ ํธ๋์คํฌ๋จธ ๋ธ๋ก์ feed-forward ๋ ์ด์ด๋ก ์ ๋ฌ๋๋ค. ์ด ๋ ์ด์ด๋ ์ํ์ค ๋ด์ ๊ฐ ์์น์ ๋ํด ๋ ๋ฆฝ์ ์ผ๋ก ๋ฐ์ดํฐ์ ์์น๋ณ ๋ณํ์ ์ ์ฉํ์ฌ ๋ชจ๋ธ ํํ์ ์ถ๊ฐ์ ์ธ ๋น์ ํ์ฑ๊ณผ ๋ณต์ก์ฑ์ ํตํ ํ ์ ์๊ฒ ํด์ค๋ค. Feed-forward layer๋ ์ผ๋ฐ์ ์ผ๋ก ReLU ๋๋ GELU์ ๊ฐ์ ๋น์ ํ ํ์ฑํ ํจ์์ ํจ๊ป 2๊ฐ์ ์ ํ ๋ณํ์ผ๋ก ๊ตฌ์ฑ๋๋ค. Feed-forward ๋ ์ด์ด ์ฒ๋ฆฌ ํ ๋ฐ์ดํฐ๋ ๋ ๋ค๋ฅธ โAdd and Normโ ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ฉฐ, ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ์์ ์ฑ๊ณผ ํจ์จ์ฑ์ ๊ธฐ์ฌํ๋ค.
Encoder and decoder
์๋ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ ์ธ์ฝ๋์ ๋์ฝ๋ ๋ชจ๋์ ์กฐํฉ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ๊ฐ ์ธ์ฝ๋ ๋ฐ ๋์ฝ๋๋ ์ผ๋ จ์ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ ๋ ์ด์ด๋ ํต์ฌ ๊ตฌ์ฑ ์์์ธ ๋ฉํฐ ์ ํ ์ดํ ์ ๋ฉ์ปค๋์ฆ, ์์น๋ณ ํผ๋ ํฌ์๋ ๋คํธ์ํฌ, ์ ๊ทํ ๋ ์ด์ด ๋ฐ ์์ฐจ ์ฐ๊ฒฐ์ ํฌํจํ๋ค.
์ธ์ฝ๋์ ์ฃผ์ ๊ธฐ๋ฅ์ ์ ๋ ฅ ์ํ์ค๋ฅผ ๊ฐ ํ ํฐ์ ๋ํ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ์ ์งํ๋ฉด์ ์ฐ์์ ์ธ ํํ์ผ๋ก ์ฒ๋ฆฌํ๋ค. ์ ๋ ฅ ์ํ์ค๋ ๋จผ์ ์ ๊ทํ, ํ ํฐํ ๊ณผ์ ์ ํตํด ์๋ฒ ๋ฉ์ผ๋ก ๋ณํ๋๋ค. Self-attention ๋ฉ์ปค๋์ฆ์ ํตํด ์ํ์ค ๋ด์ ๊ฐ ํ ํฐ์ ๋ค๋ฅธ ๋ชจ๋ ํ ํฐ์ ๋์ ์ผ๋ก ์ฃผ์๋ฅผ ๊ธฐ์ธ์ฌ ์ํ์ค ๋ด์ ๋ฌธ๋งฅ ๊ด๊ณ๋ฅผ ์ดํดํ ์ ์๊ฒ ๋๋ค.
๋์ฝ๋๋ ์ธ์ฝ๋์ ์ถ๋ ฅ ๋ฒกํฐ Z๊ฐ ์ ๊ณตํ๋ ์ปจํ ์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ถ๋ ฅ ์ํ์ค๋ฅผ ์์ฑํ๋ ์ญํ ์ ํ๋ค. ๋์ฝ๋๋ ์์ ํ ํฐ์ ์์์ผ๋ก ํ ํฐ ๋จ์๋ก ํ๋์ฉ ์์ฑํด ๋๊ฐ๋ค. ๋์ฝ๋ ๋ ์ด์ด๋ ๋ ๊ฐ์ง ์ข ๋ฅ์ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋ค.
- ๋ง์คํน๋ ์๊ธฐ ์ดํ
์
(masked self-attention)
- ํ์ฌ ์์น์ ํ ํฐ์ ์ถ๋ ฅ ์ํ์ค์์ ์์ชฝ์ ์๋ ํ ํฐ๋ค๋ง ์ฐธ์กฐํ ์ ์๋๋ก ์ ํํ๋ค.
- ์ด๋ ๊ฒ ํด์ผ ์คํ ๋ ๊ทธ๋ ์๋ธ(auto-regressive) ์์ฑ์ ์งํฌ ์ ์๋ค.
- ์ฆ, ๋ฏธ๋ ํ ํฐ์ ๋ฏธ๋ฆฌ ์์ง ๋ชปํ๊ฒ ํ์ฌ ์์ธก์ด ์ฌ๋ฐ๋ฅด๊ฒ ์ด๋ฃจ์ด์ง๋๋ก ํ๋ค.
- ์ธ์ฝ๋-๋์ฝ๋ ๊ต์ฐจ ์ดํ
์
(encoder-decoder cross-attention)
- ๋์ฝ๋๊ฐ ์ธ์ฝ๋๊ฐ ๋ง๋ ์ ๋ ฅ ์ํ์ค์ ๋ฌธ๋งฅ ์๋ฒ ๋ฉ(contextual embeddings)์ ์ฐธ์กฐํ ์ ์๊ฒ ํ๋ค.
- ์ด๋ฅผ ํตํด ์ ๋ ฅ ๋ด์ฉ ์ค ์ค์ํ ๋ถ๋ถ์ ์ง์คํ์ฌ ๋ ์ ํํ ์ถ๋ ฅ์ ์์ฑํ๋ค.
์ด๋ฌํ ๊ณผ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ๋ฉด์ ๋์ฝ๋๋ ํ ํฐ์ ํ๋์ฉ ์์ฑํ๊ณ , ๋ง์ง๋ง์๋ ์ข ๋ฃ ํ ํฐ(end-of-sequence token)์ ์์ฑํ๋ฉด์ ์ถ๋ ฅ ์ํ์ค๋ฅผ ์์ฑํ๋ค.
Mixture of Experts(MoE)
Mixture of Experts(MoE)๋ ์ฌ๋ฌ ๊ฐ์ ์ ๋ฌธํ๋ ์๋ธ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ์ ์ฒด์ ์ธ ์ฑ๋ฅ์ ํฅ์์ํค๋ ์ํคํ ์ณ์ด๋ค. ํนํ ๋ณต์กํ ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ค. MoE๋ ์์๋ธ ํ์ต์ ํ ํํ์ด์ง๋ง, ์ค์ํ ์ฐจ์ด์ ์ด ํ๋ ์๋ค. ๋จ์ํ ๋ชจ๋ ์ ๋ฌธ๊ฐ์ ์์ธก์ ํ๊ท ๋ด๋ ๊ฒ์ด ์๋๋ผ, ์ ๋ ฅ์ ์๋ก ๋ค๋ฅธ ๋ถ๋ถ์ ์๋ก ๋ค๋ฅธ ์ ๋ฌธ๊ฐ์๊ฒ ์ ๋ฌํ๋๋ก ํ์ตํ๋ค๋ ์ ์ด๋ค. ์ด๋ก ์ธํด ๋ชจ๋ธ์ ํน์ ํ์ ์์ญ(sub-domain)์ด๋ ๋ฐ์ดํฐ์ ํน์ ์ธก๋ฉด์ ๋ํด ๊ฐ๊ฐ์ ์ ๋ฌธ๊ฐ๊ฐ ์ ๋ฌธํํ ์ ์๋ค.
์ ๋ฌธ๊ฐ(Experts)
- ๊ฐ๊ฐ์ ์๋ธ๋ชจ๋ธ๋ก, ์ ๋ ฅ ๋ฐ์ดํฐ์ ํน์ ๋ถ๋ถ์ด๋ ํน์ ์์ ์ ์ฒ๋ฆฌํ๋๋ก ์ค๊ณ๋์ด ์๋ค. ์ด ๋ชจ๋ธ๋ค์ ์ ๊ฒฝ๋ง, ์์ฌ๊ฒฐ์ ํธ๋ฆฌ ๋ฑ ๋ค์ํ ํํ์ผ ์ ์์ง๋ง, ๋ํ ์ธ์ด ๋ชจ๋ธ์์๋ ๋ณดํต ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
๊ฒ์ดํ ๋คํธ์ํฌ(Gating Network ๋๋ ๋ผ์ฐํฐ Router)
- ์ ๋ ฅ์ ์ ์ ํ ์ ๋ฌธ๊ฐ์๊ฒ ์ ๋ฌํ๋ ์ญํ ์ ํ๋ ๋งค์ฐ ์ค์ํ ๊ตฌ์ฑ ์์์ด๋ค. ์ด ๋คํธ์ํฌ๋ ์ ๋ ฅ์ ๋ฐ์์ ์ ๋ฌธ๊ฐ๋ค์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ์ถ๋ ฅํ๋ค. ์ด ํ๋ฅ ์ ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ์ต์ข ์์ธก์ ์ผ๋ง๋ ๊ธฐ์ฌํ ์ง๋ฅผ ๊ฒฐ์ ํ๋ค. ์ด ๊ฒ์ดํ ๋คํธ์ํฌ ๋ํ ๋ณดํต์ ์ ๊ฒฝ๋ง์ผ๋ก ๊ตฌ์ฑํ๋ค.
๊ฒฐํฉ ๋ฉ์ปค๋์ฆ(Combination Mechanism)
- ์ ๋ฌธ๊ฐ๋ค์ ์ถ๋ ฅ์ ๊ฒ์ดํ ๋คํธ์ํฌ๊ฐ ์ ๊ณตํ ํ๋ฅ ๊ฐ์ค์น๋ก ๊ฒฐํฉํ์ฌ ์ต์ข ์์ธก์ ์์ฑํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ๊ฐ์ค ํ๊ท ๋ฐฉ์์ด ์ฌ์ฉ๋๋ค.
์ค์ ๋ก MoE ์ํคํ ์ฒ๋ ์ ๋ฌธ๊ฐ๋ผ๊ณ ๋ถ๋ฆฌ๋ ์ฌ๋ฌ ๊ฐ์ ์ ๋ฌธํ๋ ์๋ธ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ๋ณต์กํ ์์ ์ ์ฒ๋ฆฌํ๋ค. ๋จ์ํ ๋ชจ๋ ์ ๋ฌธ๊ฐ์ ์์ธก์ ํ๊ท ๋ด๋ ๊ฒ์ด ์๋๋ผ MoE๋ ๊ฒ์ดํ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ ฅ์ ๊ฐ ๋ถ๋ถ์ ๊ฐ์ฅ ์ ์ ํ ์ ๋ฌธ๊ฐ์๊ฒ ์ ์ ํ ๋ถ๋ฐฐํ๋ค.
์ ๋ ฅ์ ์ ๋ฌธ๊ฐ๋ค๊ณผ ๊ฒ์ดํ ๋คํธ์ํฌ ๋ชจ๋์๊ฒ ์ ๋ฌ๋๋ค.
- ๊ฐ ์ ๋ฌธ๊ฐ๋ ์ ๋ ฅ์ ๋ฐ์ ์์ฒด์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ์ถ๋ ฅ์ ์์ฑํ๋ค.
- ๋์์ ๊ฒ์ดํ ๋คํธ์ํฌ๋ ์ ๋ ฅ์ ๋ถ์ํ์ฌ ์ ๋ฌธ๊ฐ๋ณ ํ๋ฅ ๋ถํฌ๋ฅผ ์์ฑํ๋ค. ์ด ํ๋ฅ ์ ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ์ต์ข ๊ฒฐ๊ณผ์ ์ผ๋ง๋ ๊ธฐ์ฌํ ์ง๋ฅผ ๋ํ๋ธ๋ค.
์ด๋ ๊ฒ ๊ณ์ฐ๋ ํ๋ฅ ์ ์ ๋ฌธ๊ฐ๋ค์ ์ถ๋ ฅ์ ๊ฐ์ค์น๋ก ์ ์ฉ๋๊ณ , ๊ฐ์ค ํฉ(Weighted combination)์ด ์ต์ข ์์ธก ๊ฒฐ๊ณผ๊ฐ ๋๋ค. ์ด ๋ฐฉ์์ ๊ฐ๊ฐ์ ์ ๋ฌธ๊ฐ๊ฐ ํน์ ์ข ๋ฅ์ ๋ฐ์ดํฐ๋ ํ์ ์์ ์ ํนํ๋ ์ ์๊ฒ ํ๋ฉฐ ๋ชจ๋ธ์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ๋์์ด ๋๋ค. ๋ํ ํฌ์ ํ์ฑํ(sparse activation)๋ฅผ ํตํด ํ๋์ ์ ๋ ฅ์ ๋ํด ์ผ๋ถ ์ ๋ฌธ๊ฐ๋ง ํ์ฑํ๋๋๋ก ํ์ฌ ๊ณ์ฐ ๋น์ฉ(computational cost)๋ ์ ๊ฐํ ์ ์๋ค.
Large Reasoning Models
๋๊ท๋ชจ ๋ชจ๋ธ์๊ฑฐ ๊ฐ๋ ฅํ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ฌ์ฑํ๋ ๊ฒ์ ๋งค์ฐ ๋ณต์กํ ์์ ์ด๋ฉฐ, ์ด๋ฅผ ์ํด์๋ ๋ชจ๋ธ ๊ตฌ์กฐ ์ค๊ณ, ํ๋ จ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ ํ๋กฌํํธ ์ ๋ต์ ์กฐํฉ์ด ํ์ํ๋ค.
๊ณ ๊ธ ํ๋กฌํํธ ์ ๋ต๋ค
- Chain-of-Thought(CoT)
- ๋ชจ๋ธ์ด ์ต์ข ๋ต์ ๋ด๊ธฐ ์ ์ ์ค๊ฐ ์ถ๋ก ๋จ๊ณ๋ฅผ ์์ฑํ๋๋ก ์ ๋ํ๋ค.
- ํ๋กฌํํธ์ ๋จ๊ณ๋ณ ์ถ๋ก ์์๋ฅผ ์ ๊ณตํ์ฌ, ๋ชจ๋ธ์ด ๋ณต์กํ ๋ฌธ์ ๋ฅผ ์์ ํ์ ๋ฌธ์ ๋ก ๋๋์ด ํด๊ฒฐํ๋๋ก ํ์ตํ๋ค.
- ์ด๋ ์ฌ๋์ ์ฌ๊ณ ๊ณผ์ ์ ๋ชจ๋ฐฉํ๋ฉฐ, ๋ค๋จ๊ณ ์ถ๋ก (multi-step inference)์ด ํ์ํ ์์ ์์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํจ๋ค.
- Tree-of-Thoughts(ToT)
- ์ฌ๋ฌ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ํ์ํ๊ณ , ํ์ ์๊ณ ๋ฆฌ์ฆ(search algorithm)์ ์ฌ์ฉํ์ฌ ๊ฐ์ฅ ์ ๋งํ ํด๊ฒฐ์ฑ ์ ์ฐพ๋๋ค.
- ํนํ ๊ฒ์ ํธ๋ฆฌ๋ ์กฐํฉ์ ๋ฌธ์ (combinatiorial problems)์ ์ ์ฉํ๋ค.
- Least-to-Most
- ์ฌ์ด ํ์ ๋ฌธ์ ๋ถํฐ ์ ์ ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ก ํ์ฅํด ๋๊ฐ๋ ๋ฐฉ์์ด๋ค.
- ์์ ํ์ ๋ฌธ์ ์ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ๋ค์ ๋ฌธ์ ์ ํ๋กฌํํธ์ ํฌํจ์์ผ ์ ์ง์ ์ธ ๋ฌธ์ ํด๊ฒฐ์ ์ ๋ํ๋ค.
๋ชจ๋ธ ํ๋ จ ๊ธฐ๋ฒ(Training Methodologies) ์ถ๋ก ์ ์ฉ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ธํ๋(Fine-tuing)
- ๋ ผ๋ฆฌ ํผ์ฆ, ์ํ ๋ฌธ์ , ์์ ๊ธฐ๋ฐ ์ถ๋ก ๋ฌธ์ ๋ฑ์ด ํฌํจ๋ ์ ์ฉ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ชจ๋ธ์ ์ถ๊ฐ ํ๋ จํ๋ค.
์ง์ ๊ธฐ๋ฐ ํ๋(Instruction Tuning)
- ์์ฐ์ด๋ก ๋ ๋ช ๋ น์ด๋ฅผ ๋ฐ๋ฅด๋๋ก ๋ชจ๋ธ์ ํ์ต์์ผ ๋ณต์กํ ์ถ๋ก ์์ฒญ์ ์ ๋ฐ์ํ๋๋ก ๋ง๋ ๋ค. ์ธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๊ฐํ ํ์ต(Reinforcement Learning from Human Feedback, RLHF)
- ์ฌ๋์ ํผ๋๋ฐฑ์ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๊ฐ์ ํ๋ค.
- ์ถ๋ก ๋ฅ๋ ฅ๋ฟ๋ง ์๋๋ผ ์ ์ฉ์ฑ(helpfulness)๊ณผ ์ผ๊ด์ฑ(coherence)๋ ํฅ์๋๋ค.
์ง์ ์ฆ๋ฅ(Knowledge Distillation)
- ๋ ํฐ ์ฑ๋ฅ์ ๊ฐ์ง ๊ต์ฌ ๋ชจ๋ธ(teacher)์ ์ง์์ ๋ ์๋ ํจ์จ์ ์ธ ํ์ ๋ชจ๋ธ(stduent)์ ์ ์ดํ๋ค.
- ์ด๋ฅผ ํตํด ๊ณ์ฐ ์์์ ์ค์ด๋ฉด์๋ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ์งํ ์ ์๋ค.
์ถ๋ก ์์ ๊ธฐ๋ฒ๋ค(Inference Techniques)
- ๋น ์์น(Beam Search) : ์ฌ๋ฌ ํ๋ณด ์ถ๋ ฅ์ ๋์์ ํ์ํ์ฌ, ๋ ๋์ ์ถ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ ํํ๋ค.
- ์จ๋ ์กฐ์ (Temperature Scaling) : ์ถ๋ ฅ์ ๋ฌด์์์ฑ(randomness)์ ์กฐ์ ํ์ฌ ํํ๊ณผ ์ด์ฉ(exploration vs exploitation) ์ฌ์ด์ ๊ท ํ์ ๋ง์ถ๋ค.
์ธ๋ถ ์ง์ ํตํฉ(External Knowledge Integration)
- ์ง์ ๊ทธ๋ํ(knowledge graph)๋ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ฐ์ ์ธ๋ถ ์ง์์ ํ์ฉํ์ฌ, ๋ชจ๋ธ์ ์ถ๋ก ๊ณผ์ ์ ์ถ๊ฐ์ ์ธ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ค.
- ๋ํ์ ์ธ ๊ธฐ๋ฒ์ Retrieval-Augmented Generation(RAG)์ผ๋ก ์ถ๋ ฅ์ ์์ฑํ๊ธฐ ์ ์ ๊ด๋ จ ์ ๋ณด๋ฅผ ๊ฒ์ํด์ ๋ชจ๋ธ์๊ฒ ์ ๊ณตํ๋ ๋ฐฉ์์ด๋ค.
Training the transformer
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋ํด ์ด์ผ๊ธฐํ ๋ ํ๋ จ(training)๊ณผ ์ถ๋ก (inference)์ ๊ตฌ๋ถํ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํ๋ค.
- ํ๋ จ : ๋ณดํต ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ(๋งค๊ฐ๋ณ์)๋ฅผ ์์ ํ๋ ๊ณผ์ ์ด๋ค.
- ์ถ๋ก : ์์ธก๋ ์ถ๋ ฅ์ ์ป๊ธฐ ์ํ ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ์ ๊ฐ์ค์น๋ ๋ณ๊ฒฝ๋์ง ์๋๋ค.
์ด์ ๋ถํฐ ํธ๋์คํฌ๋จธ ํ๋ จ์ ๋ํด์ ์ค๋ช ํ๊ณ ์ ํ๋ค.
Data preparation
ํธ๋์คํฌ๋จธ ๋ชจ๋ธ ํ๋ จ์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ ๋ฐ์ดํฐ ์ค๋น(Data preparation)์ด๋ฉฐ, ์ด ๊ณผ์ ์์ฒด๋ ๋ช ๊ฐ์ง ์ค์ํ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
-
๋ฐ์ดํฐ ์ ์ (Cleaning the Data)
- ํํฐ๋ง : ๋ถํ์ํ๊ฑฐ๋ ํ์ง์ด ๋ฎ์ ๋ฐ์ดํฐ ์ ๊ฑฐ
- ์ค๋ณต ์ ๊ฑฐ : ์ค๋ณต๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐ
- ์ ๊ทํ : ๋ฐ์ดํฐ ํฌ๋งท์ ์ผ๊ด๋๊ฒ ๋ง์ถ๊ธฐ(์: ๋์๋ฌธ์ ํต์ผ, ๊ณต๋ฐฑ ์ ๊ฑฐ ๋ฑ)
-
ํ ํฌ๋์ด์ง(Tokenization)
- ๋ฐ์ดํฐ์ ์ ํ ํฐ์ด๋ผ๋ ์์ ๋จ์๋ก ๋๋๋ ๊ณผ์
- ๋ํ์ ์ธ ๋ฐฉ๋ฒ์๋ Byte-Pair Encoding(BPE), Unigram Tokenization ๋ฑ์ด ์๋ค.
- ์ด ๊ณผ์ ์ ํตํด ์ดํ ์งํฉ(vocabulary)์ด ์์ฑ๋๋ค.
-
๋ฐ์ดํฐ์ ๋ถํ (Dataset Splitting)
- ํ๋ จ ๋ฐ์ดํ ๊ณผ ํ ์คํธ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ถํ ํ๋ค.
Training and loss function
ํ๋ จ ๊ณผ์ ์์ฝ
- ํ๋ จ ๋ฐ์ดํฐ์ ์์ ์ ๋ ฅ ์ํ์ค ๋ฌถ์(batch)์ ์ํ๋งํ๋ค.
- ๋น์ง๋ ์ฌ์ ํ์ต์์๋ ๋ชฉํ ์ํ์ค๊ฐ ์ ๋ ฅ ์ํ์ค ์์ฒด๋ก๋ถํฐ ์์ฑ๋๋ค.
- ์ ๋ ฅ ์ํ์ค ๋ฌถ์์ ํธ๋์คํฌ๋จธ์ ์ ๋ ฅ๋๋ค.
- ์์ธก๋ ์ํ์ค์ ๋ชฉํ ์ํ์ค ๊ฐ์ ์ฐจ์ด๋ ๋ณดํต ํฌ๋ก์ค ์ํธ๋กํผ ์์ค ํจ์(cross-entropy loss) ๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ์ฐ๋๋ค.
- ์์ค(loss)์ ๊ธฐ์ธ๊ธฐ(gradient)๊ฐ ๊ณ์ฐ๋๊ณ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ(optimizer)์ด ๊ธฐ์ธ๊ธฐ๋ฅผ ์ด์ฉํ์ฌ ํธ๋์คํฌ๋จธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
- ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ์ฌ ํธ๋์คํฌ๋จธ๊ฐ ์ผ์ ํ ์ฑ๋ฅ์ ๋๋ฌํ๊ฑฐ๋ ์ฌ์ ์ ์ง์ ํ ํ ํฐ ์ ๋งํผ ํ๋ จ์ด ์งํ๋ ๋๊น์ง ๊ณ์๋๋ค.
์ํคํ ์ฒ๋ณ ํ๋ จ ๋ฐฉ์
1. ๋์ฝ๋ ์ ์ฉ ๋ชจ๋ธ(Decoder-only models)
- ์ฃผ๋ก ์ธ์ด ๋ชจ๋ธ๋ง ์์ ์ ์ฌ์ ํ๋ จ๋๋ค.
- ๋ชฉํ ์ํ์ค๋ ์ ๋ ฅ ์ํ์ค์ ํ ์นธ ์ด๋๋ ๋ฒ์ ์ด๋ค.
์๋ฅผ ๋ค์ด ํ๋ จ ์ํ์ค๊ฐ the cat sat on the mat
์ด๋ผ๋ฉด:
์ ๋ ฅ ์ํ์ค | ์์ธกํด์ผ ํ ๋ชฉํ |
---|---|
the cat sat on | the |
the cat sat on the | mat |
์ด๋ ๊ฒ ๋ค์ํ ์ ๋ ฅ/์ถ๋ ฅ ์์ ์์ฑํ ์ ์๋ค.
2. ์ธ์ฝ๋ ์ ์ฉ ๋ชจ๋ธ(Encoder-only models, ์ BERT)
- ์ ๋ ฅ ์ํ์ค๋ฅผ ์ผ๋ถ ํผ์(corrupt)์ํค๊ณ ๋ชจ๋ธ์ด ์ด๋ฅผ ๋ณต์(reconstruct)ํ๋๋ก ํ๋ จํ๋ค.
- ๋ํ์ ์ธ ๋ฐฉ์์ ๋ง์คํน ์ธ์ด ๋ชจ๋ธ๋ง์ด๋ค.
์์
- ์
๋ ฅ:
The [MASK] sat on the mat
- ๋ชฉํ ์ํ์ค:
The cat sat on the mat
3. ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋ธ(Encoder-Decoder models, ์: ํ์ด์ Transformer)
- Sequence-to-sequence ์์ ์ ์ฌ์ฉ๋๋ฉฐ ๊ฐ๋ ํ์ต(supervised) ๋ฐฉ์์ผ๋ก ํ๋ จ๋๋ค.
- ์์ ์์
๋ค:
- ๋ฒ์ญ: ์
๋ ฅ โ
Le chat est assis sur le tapis
, ๋ชฉํ โThe cat sat on the mat
- ์ง๋ฌธ-๋ต๋ณ: ์ ๋ ฅ โ ์ง๋ฌธ, ๋ชฉํ โ ๋ต
- ์์ฝ: ์ ๋ ฅ โ ๊ธด ๊ธฐ์ฌ, ๋ชฉํ โ ์์ฝ๋ฌธ
- ๋ฒ์ญ: ์
๋ ฅ โ
- ๋ํ, ์ํค๋ฐฑ๊ณผ์ฒ๋ผ ์ผ๋ฐ ํ
์คํธ๋ฅผ ์ด์ฉํด ๋น์ง๋ ๋ฐฉ์์ผ๋ก๋ ํ์ต์ํฌ ์ ์์ต๋๋ค.
์: ์ ๋ ฅ โ ๋ฌธ์ ์๋ถ๋ถ, ๋ชฉํ โ ๋ท๋ถ๋ถ
4. ์ถ๊ฐ ๊ณ ๋ ค ์ฌํญ: ์ปจํ ์คํธ ๊ธธ์ด(Context Length)
- ์ปจํ ์คํธ ๊ธธ์ด๋, ๋ชจ๋ธ์ด ๋ค์ ํ ํฐ์ ์์ธกํ ๋ ์ด์ ์ ๋ช ๊ฐ ํ ํฐ๊น์ง ๊ธฐ์ตํ๊ณ ์ฌ์ฉํ ์ ์๋์ง๋ฅผ ๋งํ๋ค.
- ์ปจํ ์คํธ๊ฐ ๊ธธ์๋ก ๋ณต์กํ ๊ด๊ณ๋ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ๋ ์ ํฌ์ฐฉํ ์ ์์ด ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค.
- ํ์ง๋ง ๊ธธ์ด๊ฐ ๊ธธ์๋ก ์ฐ์ฐ๋๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ์ฆ๊ฐํ์ฌ, ํ๋ จ ๋ฐ ์ถ๋ก ์๋๊ฐ ๋๋ ค์ง ์ ์๋ค.
- ๋ฐ๋ผ์ ์์ ์ ํน์ฑ๊ณผ ์ฌ์ฉ ๊ฐ๋ฅํ ์์์ ๊ณ ๋ คํ์ฌ ์ ์ ํ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ๊ท ํ ์๊ฒ ์ ํํด์ผ ํ๋ค.
The evolution of transformers
์ด๋ฒ ์น์ ์ ๋ค์ํ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ์ ๋ํ ๊ฐ์์ ๋๋ค. GPT-1๊ณผ BERT๋ก๋ถํฐ ์์ํ์ฌ ๋ง์ง๋ง์๋ Google์ ์ต์ ๋ํ ์ธ์ด ๋ชจ๋ธ ์๋ฆฌ์ฆ์ธ Gemini๊น์ง ์ดํด๋ณผ ์์ ์ด๋ค.
BERT
BERT๋ Bidirectional Encoder Representations from Transformers์ ์ฝ์๋ก ์ ํต์ ์ธ ์ธ์ฝ๋-๋์ฝ๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค๊ณผ๋ ๋ฌ๋ฆฌ, ์ธ์ฝ๋ ์ ์ฉ(encoder-only) ์ํคํ ์ฒ์ด๋ค.
ํต์ฌ ํน์ง BERT๋ ๋ฌธ์ฅ์ ์์ฑํ๊ฑฐ๋ ๋ฒ์ญํ๋ ๊ฒ์ด ์๋๋ผ, ๋ฌธ๋งฅ์ ๊น์ด ์๊ฒ ์ดํด๋๋ ๋ฐ ์ด์ ์ ๋ง์ถ๊ณ ์๋ค. ์ด๋ฅผ ์ํด ๋ง์คํน ์ธ์ด ๋ชจ๋ธ์ด๋ผ๋ ํ์ด ๋ชฉํ๋ฅผ ์ฌ์ฉํ๋ค.
๋ง์คํน ์ธ์ด ๋ชจ๋ธ
- ๋ฌธ์ฅ์์ ๋ฌด์์ ๋จ์ด๋ฅผ [MASK] ํ ํฐ์ผ๋ก ๋ฐ๊พธ๊ณ , BERT๋ ์์ชฝ ๋ฌธ๋งฅ์ ๋ณด๊ณ ์๋ ๋จ์ด๋ฅผ ์์ธกํ๋ค.
์ด ๋ฐฉ์์ ๋จ์ด์ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ ๋ฌธ๋งฅ์ ๋์์ ๊ณ ๋ คํ๊ฒ ํ๋ฏ๋ก, ๊ธฐ์กด ํธ๋์คํฌ๋จธ๋ณด๋ค ๋ ์ ๋ฐํ ๋ฌธ๋งฅ ์ดํด๊ฐ ๊ฐ๋ฅํ๋ค.
๋ค์ ๋ฌธ์ฅ ์์ธก BERT๋ ๋ ๋ค๋ฅธ ํ๋ จ ๋ชฉํ๋ก NSP๋ฅผ ์ฌ์ฉํ๋ค.
- ๋ ๋ฌธ์ฅ์ด ์ฃผ์ด์ก์ ๋, ๋ ๋ฒ์งธ ๋ฌธ์ฅ์ด ์ฒซ ๋ฒ์งธ ๋ฌธ์ฅ ๋ค์ ์ค์ ๋ก ์ด์ด์ง๋ ๋ฌธ์ฅ์ธ์ง๋ฅผ ํ๋จํ๊ฒ ํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก BERT๋
- ๋จ์ด ์์ค์์ ์๋ฐฉํฅ ๋ฌธ๋งฅ์ ์ดํดํ ์ ์๊ฒ ๋์๋ค.
- ๋ฌธ์ฅ ๊ฐ ๊ด๊ณ๋ฅผ ํ์ ํ ์ ์๊ฒ ๋๋ค.
ํ์ฉ ๋ถ์ผ ์ด๋ฌํ ๋ฅ๋ ฅ ๋๋ถ์ BERT๋ ํนํ ๋ค์๊ณผ ๊ฐ์ ์์ฐ์ด ์ดํด(NLU) ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
- ์ง๋ฌธ-๋ต๋ณ(Question Answering)
- ๊ฐ์ ๋ถ์(Sentiment Analysis)
- ์์ฐ์ด ์ถ๋ก (Natural Language Inference) ๋ฑ
BERT์ ํ๊ณ
- ์ธ์ฝ๋ ์ ์ฉ ๋ชจ๋ธ์ด๊ธฐ ๋๋ฌธ์ BERT๋ ํ ์คํธ ์์ฑ ๊ธฐ๋ฅ์ ์๋ค.
GPT-1
GPT-1(Generative Pre-trained Transformer ๋ฒ์ 1)์ OpenAI๊ฐ 2018๋ ์ ๊ฐ๋ฐํ ๋์ฝ๋ ์ ์ฉ ๋ชจ๋ธ์ด๋ค. ์ด ๋ชจ๋ธ์ BooksCorpus๋ผ๋ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋์๊ณ ํ ์คํธ ์์ฑ, ์ธ์ด ๋ฒ์ญ, ์ฐฝ์์ ์ธ ์ฝํ ์ธ ์์ฑ, ์ ๋ณด์ฑ ์ง๋ฌธ ์๋ต ๋ฑ ๋ค์ํ ์์ ์ ์ํํ ์ ์๋ค.
GPT-1์ ์ฃผ์ ํ์
1. ํธ๋์คํฌ๋จธ + ๋น์ง๋ ์ฌ์ ํ์ต์ ๊ฒฐํฉ
- ๋น์ง๋ ์ฌ์ ํ์ต์ ๋ ์ด๋ธ์ด ์๋ ๋๊ท๋ชจ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ๋จผ์ ์ธ์ด ๋ชจ๋ธ์ ํ๋ จํ ํ, ํน์ ์์ (์: ๋ฒ์ญ, ๊ฐ์ ๋ถ์ ๋ฑ)์ ์ํด ๊ฐ๋ ํ์ต์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐฉ์์ด๋ค.
- ์ด์ ์๋ ๋๋ถ๋ถ์ ์ธ์ด ๋ชจ๋ธ์ด ๊ฐ๋
ํ์ต ๋ฐฉ์์ผ๋ก๋ง ํ๋ จ๋์๊ณ , ์ด์๋ 2๊ฐ์ง ๋ฌธ์ ์ ์ด ์์๋ค.
- ๋ ์ด๋ธ์ด ๋ถ์ ๋ฐ์ดํฐ(labeled data)๋ฅผ ๋๋์ผ๋ก ์์งํด์ผ ํ๋๋ฐ, ์ด๊ฑด ๋น์ฉ๊ณผ ์๊ฐ์ด ๋ง์ด ๋ ๋ค.
- ๋ชจ๋ธ์ ํ๋ จ์ ์ฌ์ฉ๋ ์์ ๊ณผ ์ ์ฌํ ์์ ์๋ง ์ผ๋ฐํํ ์ ์๋ค.
- ๋ฐ๋ฉด, ๋น์ง๋ ์ฌ์ ํ์ต + ๊ฐ๋ ๋ฏธ์ธ ์กฐ์ ์ ์กฐํฉ์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ๋ํ ์ฌ๋ก ์ค ํ๋๊ฐ Semi-supervised Sequence Learning์ด๋ค.
2. BooksCorpus ๋ฐ์ดํฐ์ ์ ์ฌ์ฉ
- GPT-1์ ์ฝ 5GB ๊ท๋ชจ์ ๋ ์ด๋ธ ์๋ ํ ์คํธ๋ก ๊ตฌ์ฑ๋ BooksCorpus ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋์๋ค.
- ์ด ๋ฐ์ดํฐ์ ์ 7,000๊ถ ์ด์์ ๋ฏธ์ถ๊ฐ ์ฑ ์ ํฌํจํ๊ณ ์์ด ๋ค์ํ ๋ฌธ๋งฅ๊ณผ ๊ธด ๋ฌธ์ฅ์ ํ์ตํ๋๋ฐ ์ ํฉํ๋ค.
- ์ฐ์์ ์ธ ๋ฌธ์ฅ ๊ตฌ์กฐ๊ฐ ๋ง์, ์ฅ๊ธฐ ์์กด์ฑ์ ๋ฐฐ์ฐ๋ ๋ฐ๋ ํจ๊ณผ์ ์ด๋ค.
3. ์์ ์ธ์ํ ์ ๋ ฅ ๋ณํ(Task-aware Input Transformations) GPT-1์ ํน์ ์์ ์ ์ํ ๊ตฌ์กฐํ๋ ์ ๋ ฅ์ ํ๋กฌํํธ ๊ตฌ์กฐ๋ก ๋จ์ํ ๋ณํํด์ ์ฒ๋ฆฌํ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค. ์ด๋ ์์ ๋ณ ์ํคํ ์ฒ ์์ด๋ ๋ค์ํ NLP ์์ ์ ๋์ํ ์ ์๊ฒ ํด์ฃผ์๋ค.
์:
- ํ
์คํธ ํจ์(Textual Entailment)
โ ์ ์ (premise)์ ๊ฐ์ค(hypothesis)์ ๊ตฌ๋ถ์
$
๋ก ์ฐ๊ฒฐ:[p, $, h]
- ์ง๋ฌธ-๋ต๋ณ(Question Answering)
โ ๋ฌธ๋งฅ(context) + ์ง๋ฌธ(question) + ๋ต๋ณ(answer)์ ๋ค์๊ณผ ๊ฐ์ด ์ฐ๊ฒฐ:
[c, q, $, a]
4. ์ฑ๋ฅ ๋ฐ ํ๊ณ
- GPT-1์ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ฉฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค.
- ๊ทธ๋ฌ๋ ๋ช ๊ฐ์ง ์ ํ์ ๋ ์์๋ค.
- ๋ฐ๋ณต์ ์ธ ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ฒฝํฅ์ด ์์
- ๋ค์ค ํด ๋ํ์์๋ ์ผ๊ด๋ ์ถ๋ก ์ด ์ด๋ ค์
- ๊ธด ๋ฌธ์ฅ์ด๋ ๋จ๋ฝ์์๋ ๋ฌธ๋งฅ ์ฐ๊ฒฐ์ฑ์ด ๋ถ์กฑ
- ์งง์ ์ํ์ค์์๋ ์ ์ฐฝํ์ง๋ง, ๊ธด ์ํ์ค์์๋ ์ผ๊ด์ฑ์ด ๋จ์ด์ง
GPT-2
GPT-2๋ GPT-1์ ํ์ ๋ชจ๋ธ๋ก 2019๋ OpenAI์์ ๋ฐํ๋์๋ค. GPT-2์ ๊ฐ์ฅ ํฐ ํ์ ์ ๋ฐ๋ก ์ง์ ์ ์ธ ์ค์ผ์ผ ์ ์ด์๋ค. ์ฆ, ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์์ ํ์ต ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ์ฝ 10๋ฐฐ ์ฆ๊ฐํ๋ค.
์ฃผ์ ํน์ง
- ๋ฐ์ดํฐ
- GPT-2๋ 40GB์ ๋ฌํ๋ ๋๊ท๋ชจ์ด์ ๋ค์ํ ๋ฐ์ดํฐ์ ์ธ WebText๋ก ํ์ต๋์๋ค.
- WebText๋ Reddit์์ ์นด๋ฅด๋ง ์ ์(Karma)๊ฐ 3 ์ด์์ธ ๊ฒ์๊ธ๋ค์ ๋ฐํ์ผ๋ก ์์งํ ์ฝ 4,500๋ง ๊ฐ ์นํ์ด์ง๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
- ์นด๋ฅด๋ง ์ ์๋ Reddit์ ํ์ง ์งํ์ด๋ฉฐ, ์ ์ 3 ์ด์์ ํฉ๋ฆฌ์ ์ธ ํ์ง ์์ค์ ์๋ฏธํ๋ค.
- ํ๋ผ๋ฏธํฐ ์
- GPT-2๋ 15์ต ๊ฐ(1.5B)์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ๊ณ ์์ผ๋ฉฐ, ์ด๋ GPT-1๋ณด๋ค 10๋ฐฐ ์ด์ ํฐ ๊ท๋ชจ์ด๋ค.
- ์ฐ๊ตฌํ์ ๋ค์๊ณผ ๊ฐ์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๊ฐ์ง 4๊ฐ์ง ๋ชจ๋ธ์ ์คํํ๋ค.
- 117M(GPT-1)
- 345M
- 762M
- 1.5B(GPT-2)
- ๊ทธ ๊ฒฐ๊ณผ ํ๋ผ๋ฏธํฐ๊ฐ ํด์๋ก ๋ค์ํ ์์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค.
์ฑ๋ฅ ๋ฐ ์ฅ์
- GPT-2๋ GPT-1๋ณด๋ค ๋ ์ผ๊ด์ฑ ์๊ณ ํ์ค๊ฐ ์๋ ํ ์คํธ ์์ฑ์ด ๊ฐ๋ฅํ๋ค.
- ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์์ ์ฐฝ์, ๋ฒ์ญ, ๋ฌธ์ฅ ์์ฑ ๋ฑ์ ๋๊ตฌ๋ก ์ ์ฉํ๊ฒ ํ์ฉ๋์๋ค.
- ํนํ GPT-2๋ ๋ค์ ๋ถ์ผ์์ ํ์ ํ ๊ฐ์ ์ ๋ณด์๋ค.
- ์ฅ๊ธฐ ์์กด์ฑ ํฌ์ฐฉ ๋ฅ๋ ฅ
- ์์ ์ถ๋ก
์ ํ ์ฌํญ
- ๋ค๋ง, GPT-2๋ ์ผ๋ถ ์์ (์: ํกํด, ์์ฝ, ๋ฒ์ญ)์์ ์ต์ ์ต๊ณ ์ฑ๋ฅ(state-of-the-art) ๋ชจ๋ธ์ ์์ ํ ๋ฅ๊ฐํ์ง๋ ๋ชปํ๋ค.
Zero-shot ํ์ต์ ๋ํ๊ตฌ GPT-2์ ๊ฐ์ฅ ํฐ ์ฑ๊ณผ ์ค ํ๋๋ ์ ๋ก์ท ํ์ต ๋ฅ๋ ฅ์ด๋ค.
- ์ ๋ก ์ท ํ์ต์ด๋, ๋ณ๋์ ํ๋ จ ์์ด ๋ชจ๋ธ์ด ์๋ก์ด ์์ ์ ์ผ๋ฐํํ์ฌ ์ํํ๋ ๋ฅ๋ ฅ์ด๋ค.
- ์ด๋ ๋ชจ๋ธ์ ์ฃผ์ด์ง ํ๋กฌํํธ๋ ์ง์์ด๋ง์ผ๋ก ์์ ์ ์ดํดํด์ผํ๋ค.
์๋ฅผ ๋ค์ด: ์์ด ๋ฌธ์ฅ ๋ค์์ โGerman :โ ์ด๋ผ๋ ํ๋กฌํํธ๊ฐ ์ฃผ์ด์ง๋ฉด, ๋ชจ๋ธ์ ์ด๊ฒ์ด ์์ด โ ๋ ์ผ์ด ๋ฒ์ญ ์์ ์์ ์ถ๋ก ํ๊ณ ๋ ์ผ์ด ๋ฒ์ญ๋ฌธ์ ์์ฑํ๋ค. GPT-2๋ ์ด๋ ๊ฒ ๋ค์ ์์ ๋ค์ ๋ช ์์ ์ธ ๊ฐ๋ ์์ด๋ ์ํํ ์ ์์๋ค.
- ๊ธฐ๊ณ ๋ฒ์ญ
- ์์ฝ
- ๋ ํด
์ ๋ก์ท ์ฑ๋ฅ๊ณผ ๋ชจ๋ธ ์ฉ๋์ ๊ด๊ณ
- ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ๋ชจ๋ธ์ ์ฉ๋์ด ์ปค์ง์๋ก ์ ๋ก์ท ์์ ์์์ ์ฑ๋ฅ์ ๋ก๊ทธ-์ ํ ๊ด๊ณ๋ก ํฅ์๋๋ค๋ ์ฌ์ค์ด ๋ฐํ์ก๋ค.
- GPT-2๋ ๋ ํฐ ๋ฐ์ดํฐ์ ๊ณผ ๋ ๋ง์ ํ๋ผ๋ฏธํฐ๋ก ํ์ตํ ์๋ก ์์ ์ ์ดํดํ๊ณ ์ํํ๋ ๋ฅ๋ ฅ์ด ํฅ์๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ์๋ค.
GPT-3/3.5/4
GPT-3๋ ์ธ ๋ฒ์งธ ๋ฒ์ ์ GPT ๋ชจ๋ธ๋ก GPT-2์ ๋น๊ตํด ๊ท๋ชจ, ๋ฅ๋ ฅ, ์ ์ฐ์ฑ ๋ฉด์์ ํ๊ธฐ์ ์ธ ์งํ๋ฅผ ์ด๋ค๋ค.
GPT-3
1. ์๋์ ์ธ ๊ท๋ชจ ์ฐจ์ด
- GPT-3 : 175B(1750์ต ๊ฐ ํ๋ผ๋ฏธํฐ)
- GPT-2 : 1.5B(15์ต ๊ฐ ํ๋ผ๋ฏธํฐ)
- GPT-3์ ์ด ์์ฒญ๋ ๊ท๋ชจ ๋๋ถ์, ๋ชจ๋ธ์ ๋ ๋ง์ ์ ๋ณด๋ฅผ ์ ์ฅํ๊ณ ํ์ํ ์ ์๊ณ ๋ ์ ๊ตํ ๋ช ๋ น์ด๋ฅผ ์ดํดํ๋ฉฐ, ๋ ์ผ๊ด์ฑ ์๊ณ ๋งฅ๋ฝ์ ๋ง๋ ํ ์คํธ๋ฅผ ๊ธด ๋ฌธ์ฅ์์๋ ์์ฑํ ์ ์๊ฒ ๋์๋ค.
2. Few-shot, Zero-shot ์ํ ๋ฅ๋ ฅ
- GPT-2๋ ํน์ ์์ ์ ์ ์ํํ๋ ค๋ฉด ์ถ๊ฐ ํ๋ จ ๋ฐ์ดํฐ๋ก ํ์ธํ๋์ด ํ์ํ๋ค.
- ํ์ง๋ง GPT-3๋ ๋ช ๊ฐ์ ์์๋ง ๋ณด์ฌ์ฃผ๊ฑฐ๋(Few-shot), ์์ ์์ ์์ด ์ง์๋ฌธ๋ง์ผ๋ก๋ ์์ ์ ์ดํดํ๊ณ ์ํํ ์ ์๋ค.(Zero-shot)
- ์ด๋ GPT-3๊ฐ ๋ ์ ์ฐํ๊ณ ๋์ ์ธ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๊ฐ์ถ์๋ค๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ, ์์ ๋ณ ํ์ธํ๋์ ํ์์ฑ์ ์ค์ฌ์ค๋ค.
3. ๋ ๋์ ๋ฒ์ฉ์ฑ(Generallzation) GPT-3๋ ๊ทธ ๊ฑฐ๋ํ ํ๋ผ๋ฏธํฐ ์์ ๋ค์ํ ํ์ต ๋ฐ์ดํฐ ๋๋ถ์, ๋ฒ์ญ, ์ง๋ฌธ ์๋ต, ๊ธ์ฐ๊ธฐ ๋ฑ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์์ ๊ธฐ๋ณธ ์ํ ๊ทธ๋๋ก๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
InstructGPT(GPT-3 ๊ธฐ๋ฐ ํ์ธํ๋ ๋ชจ๋ธ)
- InstructGPT๋ GPT-3์ ์ง์๋ฌธ์ ๋ฐ๋ฅด๋ ๋ฅ๋ ฅ์ ๊ฐํํ๊ธฐ ์ํด ๊ฐ๋ฐ๋ ๋ฒ์ ์ด๋ค.
- ์ฌ๋์ ์๋ฒ์ ๋ด์ ๋ฐ์ดํฐ๋ก ๊ฐ๋ ํ์ต์ ์งํํ ํ, ๊ทธ ๊ฒฐ๊ณผ๋ฌผ์ ์ฌ๋์ด ํ๊ฐํ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ธ๊ฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๊ฐํํ์ต์ ์ ์ฉํ๋ค.
- ์ด๋ก ์ธํด ๋ชจ๋ธ์ ๋ ์ ์ง์๋ฅผ ๋ฐ๋ฅด๊ณ , ๋ ์ ํํ๊ณ ์ง์ค๋ ๋ค๋ณ์ ๋ด๋ฉฐ, ์ ํด์ฑ๋ ์ค์๋ค.
- ๋๋๊ฒ๋, ํ๋ผ๋ฏธํฐ ์๊ฐ 13์ต ๋ฐ์ ์๋๋ InstructGPT๊ฐ 175B์ง๋ฆฌ GPT-3๋ณด๋ค ์ฌ๋ ํ๊ฐ์์ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค.
GPT-3.5 & GPT-3.5 Turbo
- GPT-3.5๋ GPT-3๋ณด๋ค ๋ ๋ฐ์ ๋ ์ฑ๋ฅ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ํนํ ์ฝ๋๋ฅผ ์ดํดํ๊ณ ์์ฑํ๋ ๋ฅ๋ ฅ์ด ํฅ์๋์๋ค. ๋ํ ๋ํํ ์ต์ ํ๊ฐ ๋์ด ์์ด ์ฑ๋ด์ ์ ํฉํ๋ค.
- ๋ฌธ๋งฅ ๊ธธ์ด
- ์ ๋ ฅ ์ต๋ : 16,385 ํ ํฐ
- ์ถ๋ ฅ ์ต๋ : 4,096 ํ ํฐ
GPT-4
GPT-4๋ GPT-3.5์ ์ฐ์ฅ์ ์์ ์๋ ๋ํ ๋ฉํฐ๋ชจ๋ฌ(Multimodal)์ด๋ค.
๋ฉํฐ๋ชจ๋ฌ ์ฒ๋ฆฌ
- ํ ์คํธ + ์ด๋ฏธ์ง๋ฅด ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ , ํ ์คํธ ์ถ๋ ฅ์ ์์ฑํ ์ ์๋ค.
์ฑ๋ฅ ๋ฐ ํน์ง
- ๋ ๋์ ์ผ๋ฐ ์์
- ๊ณ ๊ธ ์ถ๋ก ๋ฅ๋ ฅ
- ๋ค์ํ ๋ถ์ผ์์ ๋ณต์กํ ์์
์ํ ๊ฐ๋ฅ
- ์ํ, ํ๋ก๊ทธ๋๋ฐ, ์๊ฐ ์ ๋ณด ํด์, ์ํ, ๋ฒ๋ฅ , ์ฌ๋ฆฌํ ๋ฑ
- ๋ฌธ๋งฅ ๊ธธ์ด ์ ๋ ฅ ์ต๋ : 128,000 ํ ํฐ
- ๋ฌธ๋งฅ ๊ธธ์ด ์ถ๋ ฅ ์ต๋ : 4,096 ํ ํฐ
GPT-4๋ ๋๋๋ก ์ธ๊ฐ ์ด์์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ด์ ๋ชจ๋ธ(GPT-3.5 ํฌํจ)์ ์๋นํ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
LaMDA
LaMDA๋ Google์ด ๊ฐ๋ฐํ Language Model for Dialogue Applications์ ์ฝ์๋ก, ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ๋ถ์ผ์ ๋ํ ๋ ๋ค๋ฅธ ๊ธฐ์ฌ์ด๋ฉฐ, ํนํ ์์ ๋ก์ด ๋ํ๋ฅผ ์ค์ฌ์ผ๋ก ์ค๊ณ๋ ๋ชจ๋ธ์ด๋ค.
์ ํต์ ์ธ ์ฑ๋ด๊ณผ์ ์ฐจ์ด์ ๊ธฐ์กด์ ์ฑ๋ด์ ๋ณดํต ์ ํ๋ ์ฃผ์ ๋ ๋ฏธ๋ฆฌ ์ ์๋ ๋ฒ์ ๋ด์์ ์๋ํ์ง๋ง, LaMDA๋ ๋ค์ํ ์ฃผ์ ๋ฅผ ํญ๋๊ฒ ๋ค๋ฃฐ ์ ์๋๋ก ์ค๊ณ๋์๋ค. ์ด๋ฅผ ํตํด ๋ณด๋ค ์์ฐ์ค๋ฝ๊ณ ์ ์ฐฝํ ๋ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
ํ๋ จ ๋ฐฉ์ ๋ฐ ๋ชฉ์
- LaMDA๋ ๋ํ ์ค์ฌ์ ๋ฐ์ดํฐ๋ก ํ๋ จ๋์๋ค.
- ์ด๋ ๋จ์ํ ๋จ๋ตํ ์๋ต์ ์์ฑํ๋ ๊ฒ์ด ์๋๋ผ, ๋ํ๋ฅผ ๊ณ์ ์ด์ด๊ฐ ์ ์๋๋ก ํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ๊ฒ ๋๋ค.
- ์ฌ์ฉ์๊ฐ ๋ชจ๋ธ๊ณผ ์ฌํ๋๊ณ ํ๊ตฌ์ ์ธ ๋ํ๋ฅผ ๋๋ ์ ์๋๋ก ์ค๊ณ๋์๋ค.
GPT ๋ชจ๋ธ๊ณผ์ ๋น๊ต
- GPT ์๋ฆฌ์ฆ๋ ํ ์คํธ ์์ฑ, ์ฝ๋ ์์ฑ ๋ฑ ๋ค์ํ ์์ ์ ๋์์ ์ํํ๋ ๋ฅ๋ ฅ์ ๊ฐ์กฐํ๋ค.
- ๋ฐ๋ฉด LaMDA๋ ๋ํ์ ๊น์ด์ ํ๋ฆ ์ ์ง์ ๋ ์ง์คํ๋ค.
- GPT๋ ๊ธด ๊ธ ์์ฑ๊ณผ ๋ค์ค ์์ ์ฒ๋ฆฌ์ ๊ฐ์ ์ ๋ณด์ด๋ฉฐ, LaMDA๋ ์ฌ๋์ฒ๋ผ ์์ธก ๋ถ๊ฐ๋ฅํ๊ณ ํ๋ถํ ๋ํ ํ๋ฆ์ ๋ชจ๋ฐฉํ๋ ๋ฐ์ ์ด์ ์ ๋๋ค.
Gopher
Gopher๋ 2021๋ ์ DeepMind๊ฐ ๊ฐ๋ฐํ ๋์ฝ๋ ์ ์ฉ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ 2800์ต ๊ฐ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ํ ์ธ์ด ๋ชจ๋ธ์ด๋ค. ์ด ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ์์ ๋ค์ ์ํํ ์ ์๋ค.
- ํ ์คํธ ๋ฒ์ญ
- ์ธ์ด ๋ฒ์ญ
- ๋ค์ํ ํํ์ ์ฐฝ์ ์ฝํ ์ธ ์์ฑ
- ์ง๋ฌธ์ ๋ํ ์ ๋ณด์ฑ ์๋ต ์ ๊ณต
์ฃผ์ ํน์ง
1. ๋ฐ์ดํฐ์ ํ์ง ํฅ์ - MassiveText๋ผ๋ ๊ณ ํ์ง์ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉ - ์ด 10TB, 24.5์ต ๊ฐ ๋ฌธ์ ํฌํจ (์ถ์ฒ: ์นํ์ด์ง, ์ฑ , ๋ด์ค, GitHub ์ฝ๋ ๋ฑ) - ํ์ต์๋ ์ ์ฒด ๋ฐ์ดํฐ์ 12%(3000์ต ํ ํฐ)๋ง ์ฌ์ฉ๋จ - ๋ฐ์ดํฐ ํ์ง์ ๋์ด๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ์ ์ ์์ ์ ์ํํจ - ์ค๋ณต๋ ํ ์คํธ ์ ๊ฑฐ - ์ ์ฌํ ๋ฌธ์ ์ ๊ฑฐ
2. ์ต์ ํ ๊ธฐ๋ฒ
- 1,500 ์คํ ๋์ ํ์ต๋ฅ ์๋ฐ์ ์ ์ฌ์ฉํ๊ณ ์ดํ์๋ ์ฝ์ฌ์ธ ์ค์ผ์ค๋ก ํ์ต๋ฅ ๊ฐ์
- ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก ํ์ต๋ฅ ์ ๋ฎ์ถ๊ณ , ๋ฐฐ์น๋น ํ ํฐ ์๋ ๋๋ฆฌ๋ ์ ๋ต์ ์ฌ์ฉ
- ๊ทธ๋๋์ธํธ ํด๋ฆฌํ(gradient clipping)๋ ์ ์ฉ
- ์ ์ฒด ๊ทธ๋๋์ธํธ ๋ ธ๋ฆ(global gradient norm) ๊ธฐ์ค์ผ๋ก ์ต๋ 1๋ก ์ ํ
- ํ๋ จ ์์ ์ฑ ํฅ์์ ๋์
3. ํ๊ฐ ๊ฒฐ๊ณผ Gopher๋ ์ํ, ์์, ๋ ผ๋ฆฌ ์ถ๋ก , ๊ณผํ ์ง์, ์ค๋ฆฌ, ๋ ํด ๋ฑ ๋ค์ํ ์์ ์์ ํ๊ฐ๋์๊ณ ๊ทธ ์ค 81%์ ์์ ์์ ๊ธฐ์กด ์ต๊ณ ์ฑ๋ฅ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ค.
- ์ง์ ๊ธฐ๋ฐ ์์ ์์ ๊ฐํ ์ฑ๋ฅ
- ๊ทธ๋ฌ๋ ์ถ๋ก ๊ธฐ๋ฐ ์์ ์์๋ ์ด๋ ค์์ ๋ณด์
4. ๋ชจ๋ธ ํฌ๊ธฐ์ ์ฑ๋ฅ ๊ด๊ณ
- ์ฐ๊ตฌ์ง์ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ๋ค์ํ ์์ ์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ์คํํ๋ค.
- ๋ ผ๋ฆฌ ์ถ๋ก ๊ณผ ๋ ํด์๋ ํ๋ผ๋ฏธํฐ ์ ์ฆ๊ฐ๊ฐ ํฐ ์ฑ๋ฅ ํฅ์์ผ๋ก ์ด์ด์ง
- ๋ฐ๋ฉด, ์ผ๋ฐ ์์์ฒ๋ผ ๋จ์ํ ์์ ์๋ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋๋ ค๋ ์ฑ๋ฅ ํฅ์์ด ๊ฑฐ์ ์์(์ ์ฐจ ์ ์ฒด)
GLaM
GLaM์ Google์ด ๊ฐ๋ฐํ Generalist Language Model๋ก ์ต์ด์ ํ์ ํ์ฑํ(sparsely-activated) Mixture-of-Experts ์ธ์ด ๋ชจ๋ธ์ด๋ค.
Mixture-of-Experts ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํน์ง
- Mixture-of-Experts(MoE) ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ์ฒด ํ๋ผ๋ฏธํฐ ์๊ฐ ๋งค์ฐ ํฌ๋๋ผ๋, ์ ๋ ฅ ํ ํฐ๋ง๋ค ์ผ๋ถ ์ ๋ฌธ๊ฐ(expert)๋ง ํ์ฑํ๋๋ฏ๋ก ๊ณ์ฐ ํจ์จ์ด ๋งค์ฐ ๋ฐ์ด๋ฌ๋ค.
GLaM์ ์ฑ๋ฅ ๋ฐ ํจ์จ
- ์ด ํ๋ผ๋ฏธํฐ ์ : 1.2์กฐ(1.2 trillion)
- ํ์ง๋ง ํ ๋ฒ์ ์ ๋ ฅ ํ ํฐ ์ฒ๋ฆฌ ์์๋ ์ผ๋ถ ํ๋ผ๋ฏธํฐ(์ ๋ฌธ๊ฐ๋ค)๋ง ์ฌ์ฉ๋๋ฏ๋ก, ์ ์ฒด ๋ชจ๋ธ์ ๋ชจ๋ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ํจ์จ์ ์ด๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก GLaM์
- GPT-3 ํ๋ จ์ ์ฌ์ฉ๋ ์๋์ง์ 1/3๋ง ์ฌ์ฉ
- GPT-3 ์ถ๋ก ์ ํ์ํ FLOPs์ ์ ๋ฐ๋ง ์ฌ์ฉ
- ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ GPT-3๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑ
Chinchilla
2022๋ ๊น์ง ๋ํ ์ธ์ด ๋ชจ๋ธ์ ์ฃผ๋ก ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๋ฐฉ์์ผ๋ก ํ์ ๋์ด ์๋ค. ์ด๋ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ ์ง๊ธ ๊ธฐ์ค์ผ๋ก ๋ณด๋ฉด ์๋์ ์ผ๋ก ์์์ผ๋ฉฐ, ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์กฐ์ฐจ๋ ์ฝ 3,000์ต ํ ํฐ ์ ๋์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค.
๊ธฐ์กด ํ์ฅ ๋ฐฉ์์ ๊ธฐ์ค: Kaplan et al. ์ฐ๊ตฌ
- Kaplan et al. (2020) ์ฐ๊ตฌ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ(ํฌ๋ก์ค ์ํธ๋กํผ ์์ค ๊ธฐ์ค)์ด ๊ณ์ฐ ์์, ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํฐ ํฌ๊ธฐ์ ์ด๋ป๊ฒ ์ฐ๊ด๋๋์ง๋ฅผ ๋ถ์ํ๋ค.
- ๊ทธ๋ค์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
- ๊ณ์ฐ ์์(C)๋ฅผ 100๋ฐฐ ๋๋ฆฌ๋ฉด:
- ๋ชจ๋ธ ํฌ๊ธฐ๋ ์ฝ 28.8๋ฐฐ ๋๋ ค์ผ ํจ โ
N_opt โ C^0.73
- ๋ฐ์ดํฐ ํฌ๊ธฐ๋ 3.5๋ฐฐ๋ง ๋๋ฆฌ๋ฉด ๋จ โ
D_opt โ C^0.27
์ฆ, ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ฐ์ ์ ์ผ๋ก ํค์ฐ๋ ์ ๋ต์ด ๊ธฐ์กด์๋ ๊ถ์ฅ๋์๋ค.
Chinchilla ๋ ผ๋ฌธ์ ํ์ : ํ์ฅ ๋ฒ์น ์ฌ๊ฒํ
- DeepMind์ Chinchilla ๋ ผ๋ฌธ(2022)์์๋ ์ด ํ์ฅ ๋ฒ์น์ ๋ค์ ๊ฒํ ํ๋ค.
- ์ธ ๊ฐ์ง ๋ฐฉ๋ฒ์ ํตํด ๋ถ์ํ ๊ฒฐ๊ณผ, ๊ณ์ฐ ์์์ด ๋์ด๋ ์๋ก ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ํฌ๊ธฐ๋ฅผ ๊ฑฐ์ ๋น์ทํ๊ฒ ๋๋ฆฌ๋ ๊ฒ์ด ์ต์ ์ด๋ผ๋ ๊ฒฐ๋ก ์ ๋ด๋ ธ๋ค.
- ์ฆ, ๊ณ์ฐ ์์์ 100๋ฐฐ ๋๋ฆฌ๋ฉด, ๋ชจ๋ธ ํฌ๊ธฐ 10๋ฐฐ ์ฆ๊ฐ, ๋ฐ์ดํฐ ํฌ๊ธฐ 10๋ฐฐ ์ฆ๊ฐ โ ๊ท ํ ์๊ฒ ํ์ฅํ๋ ๊ฒ์ด ์ข๋ค๋ ๊ฒฐ๋ก ์ด๋ค.
Chinchilla ๋ชจ๋ธ ์์ฒด
- DeepMind๋ ๊ธฐ์กด์ Gopher(280B ํ๋ผ๋ฏธํฐ)์ ๋์ผํ ๊ณ์ฐ ์์์ ์ฌ์ฉํ์ฌ 70B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ธ Chinchilla๋ฅผ ํ๋ จํ๋ค.
- ๊ฒฐ๊ณผ์ ์ผ๋ก Chinchilla๋ Goper(280B), GPT-3(175B), Megatron-Turing NLG(530B)๋ฅผ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ ์์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ค.
- Gopher๋ณด๋ค ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ 4๋ฐฐ ์๊ธฐ ๋๋ฌธ์, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ์ถ๋ก ๋น์ฉ๋ ๋ ์ ๋ค.
LLM ๊ฐ๋ฐ์ ํ๋ฆ ๋ณํ Chinchilla์ ๋ฐ๊ฒฌ ์ดํ, LLM ๊ฐ๋ฐ ์ ๋ต์ ๋ค์๊ณผ ๊ฐ์ด ๋ณํํ๊ธฐ ์์ํ๋ค.
- ๋จ์ํ ๋ชจ๋ธ๋ง ํค์ฐ๋ ๊ฒ์ด ์๋๋ผ ๋ฐ์ดํฐ ํฌ๊ธฐ ๋ํ ํ์ง์ ์ ์งํ๋ฉฐ ํจ๊ป ํ์ฅํ๋ ๊ฒ์ด ์ค์ํ๋ค.
- ํ์ง๋ง ์ด ์ถ์ธ๋ฅผ ๊ณ์ ๋ฐ๋ผ๊ฐ๋ฉด, ์ฌ์ฉ ๊ฐ๋ฅํ ํ ์คํธ ๋ฐ์ดํฐ ์์ฒด๊ฐ ๋ถ์กฑํด์ง ๊ฐ๋ฅ์ฑ์ด ์๊ธด๋ค.
- ์ด์ ๋ฐ๋ผ Muenninghoff et al.์ ๋ฐ์ดํฐ๊ฐ ์ ํ๋ ์ํฉ์์์ ํ์ฅ ๋ฒ์น์ ์ฐ๊ตฌํ๊ธฐ ์์ํ๋ค.
PaLM(Pathways Language Model)
PaLM์ Google AI๊ฐ ๊ฐ๋ฐํ 5400์ต ๊ฐ ํ๋ผ๋ฏธํฐ์ ๋ํ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ์ด๋ค. ํ ์คํธ์ ์ฝ๋๋ก ์ด๋ฃจ์ด์ง ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ผ๋ก ํ๋ จ๋์์ผ๋ฉฐ, ๋ค์ํ ์์ ์ ์ํํ ์ ์๋ค.
- ์์ ์ถ๋ก
- ์ฐ์ ์ถ๋ก
- ๋๋ด ์ค๋ช
- ์ฝ๋ ์์ฑ
- ๋ฒ์ญ ๋ฑ
๋ฐ์ด๋ ์ฑ๋ฅ
- PaLM์ ์ถ์ ๋น์, GLUE, SuperGLUE์ ๊ฐ์ ๋ค์ํ ์ธ์ด ๋ฒค์น๋งํฌ์์ ์ต์ ์ต๊ณ ์ฑ๋ฅ(state-of-the-art)์ ๋ฌ์ฑํ๋ค.
ํจ์จ์ ์ธ ํ์ฅ - Pathways ์์คํ
- PaLM์ ์ค์ํ ํน์ง ์ค ํ๋๋ ํจ์จ์ ์ธ ํ์ฅ์ฑ์ด๋ค.
- Google์ด ๊ฐ๋ฐํ Pathways ์์คํ ๋๋ถ์ ๊ฐ๋ฅํ๋ฐ, ์ด ์์คํ ์ 2๊ฐ์ TPU v4 Pods์ ํ๋ จ ์์ ์ ๋ถ์ฐ์์ผ ๋ํ ๋ชจ๋ธ์ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ํ๋ จํ ์ ์๋๋ก ํ๋ค.
PaLM 2 (2023๋ 5์ ๊ณต๊ฐ)
PaLM 2๋ PaLM์ ํ์ ๋ชจ๋ธ๋ก, 2023๋ 5์์ ๊ณต๊ฐ๋์๋ค.
์ฃผ์ ํน์ง
- ๋ชจ๋ธ ๊ตฌ์กฐ์ ํ๋ จ ๋ฐฉ์์ด ํฅ์๋จ
- ์ด ํ๋ผ๋ฏธํฐ ์๋ ๋ ์ ์
- ์ฑ๋ฅ์ ํฅ์๋จ
๋ฐ์ด๋ ์์ ์ฒ๋ฆฌ ๋ฅ๋ ฅ PaLM 2๋ ๋ค์๊ณผ ๊ฐ์ ๊ณ ๊ธ ์ถ๋ก ์์ ์์ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
- ์ฝ๋ ์์ฑ
- ์ํ ๋ฌธ์ ํด๊ฒฐ
- ๋ถ๋ฅ
- ์ง๋ฌธ-์๋ต
- ๋ฒ์ญ
์ฐ์ ์ ํ์ฉ
- PaLM 2๋ PaLM๋ณด๋ค ๋ ํจ์จ์ ์ด๋ฉฐ, Google์ด Google Cloud Generative AI ์ ํ๊ตฐ์ ํฌํจํ ์ฌ๋ฌ ์์ ์ฉ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ด ๋์๋ค.
Gemini
์ํคํ ์ฒ ๋ฐ ํน์ง
- ํธ๋์คํฌ๋จธ ๋์ฝ๋ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋์์ผ๋ฉฐ, Google์ TPU์์ ํจ์จ์ ์ธ ์ถ๋ก ์ด ๊ฐ๋ฅํ๋๋ก ์ํคํ ์ฒ๊ฐ ๊ฐ์ ๋์๋ค.
- ํ์ฌ ๋ฒ์ ์์๋ ์ต๋ 200๋ง ํ ํฐ๊น์ง ์ ๋ ฅ์ ์ง์ํ๋ค.
- Multi-Query Attention ๋ฐ Mixture of Experts(MoE) ๊ตฌ์กฐ๋ฅผ ํ์ฉํด ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ค.
ํ์ต ํ๊ฒฝ
- TPUv5e ๋ฐ TPUv4์์ ํ์ต๋์๊ณ ํ์ต ๋ฐ์ดํฐ๋ ์น ๋ฌธ์, ์ฑ , ์ฝ๋, ์ด๋ฏธ์ง, ์ค๋์ค, ๋น๋์ค ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋์๋ค.
Chinchilla ๋ฐฉ์์ ๋ฐ๋ผ, ํฐ ๋ชจ๋ธ์ ๊ณ์ฐ๋์ ์ต์ ํ๋ ํ ํฐ ์๋ก ํ์ต๋๊ณ , ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์์ ์ํด ๋ ๋ง์ ํ ํฐ์ผ๋ก ํ์ต๋๋ค.
๋ชจ๋ธ ๊ฐ์ด
- Gemini Ultra
- ๊ณ ๋๋ ์์ ์ ์ฉ
- 32๊ฐ ๋ฒค์น๋งํฌ ์ค 30๊ฐ์์ ์ต๊ณ ์ฑ๋ฅ(state-of-the-art) ๋ฌ์ฑ
- Gemini Pro
- ๋๊ท๋ชจ ๋ฐฐํฌ์ ์ต์ ํ๋ ๋ฒ์
- Gemini Nano
- ๊ธฐ๊ธฐ ๋ด(on-device) ์คํ์ฉ์ผ๋ก ์ค๊ณ
- ๊ฒฝ๋ ๋ชจ๋ธ์ด์ง๋ง ์์ฝ, ๋ ํด ๋ฑ์์ ๋งค์ฐ ๋ฐ์ด๋ ์ฑ๋ฅ
- Gemini Flash
- ๊ฐ์ฅ ๋น ๋ฅธ ๋ชจ๋ธ
- 1๋ฐฑ๋ง ํ ํฐ ์ ๋ ฅ์ ์ง์ํ๋ฉฐ, ๊ณ ๋น๋ ์์ ์ ์ ํฉ
- ๊ฒฝ๋ํ์ด์ง๋ง ๊ฐ๋ ฅํ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๋ฅ๋ ฅ ๋ณด์
Gemini 1.5 Pro (2024๋ ์ด ๊ณต๊ฐ)
- ๊ณ ํจ์จ ๋ฉํฐ๋ชจ๋ฌ MoE ๋ชจ๋ธ
- ์๋ฐฑ๋ง ํ ํฐ์ ๊ธฐ์ตํ๊ณ , ๊ทธ ์์์ ์ถ๋ก ํ ์ ์์
- ๊ธด ๋ฌธ์๋ค, ์ค๋์ค/๋น๋์ค ๋ฑ๋ ํฌํจ
์ฃผ์ ๋ฅ๋ ฅ
- ์ฝ๋ ์ดํด : ๋ฐฉ๋ํ ์ฝ๋๋ฒ ์ด์ค ๋ถ์ ๋ฐ ๊ณ ๊ธ ์ง๋ฌธ ์๋ต
- ์ธ์ด ํ์ต : ํ์ต ์ ๋ณธ ์ ์๋ ์ธ์ด๋, ์ฐธ๊ณ ์๋ฃ๋ง์ผ๋ก ํ์ต ๊ฐ๋ฅ
- ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก : ๊ทธ๋ฆผ์ ๋ณด๊ณ ์์ค ์ ์ฅ๋ฉด์ ์ฐพ์๋ผ ์ ์์
- ๋น๋์ค ์ดํด : ์ํ ์ ์ฒด๋ฅผ ๋ถ์ํ๊ณ ์๊ฐ๋๋ณ๋ก ์ ํํ๊ฒ ์๋ต ๊ฐ๋ฅ
์ฑ๋ฅ
- ์ต๋ 530,000 ํ ํฐ : 100% ์ ๋ณด ๊ฒ์ ์ฑ๊ณต
- 100๋ง ํ ํฐ : 99.7% ์ ๋ณด ๊ฒ์ ์ฑ๊ณต
- 1์ฒ๋ง ํ ํฐ : 99.2% ์ ํ๋ ์ ์ง
๋ณต์กํ ์ง์ ์ํ
- 406๊ฐ์ ๋ค๋จ๊ณ ์ง์ ํ ์คํธ์์ ์ด์ ๋ชจ๋ธ๋ค๋ณด๋ค ์๋ฑํ ๋ฐ์ด๋ ์ฑ๊ณผ
- 90% ์ง์ ์ ํํ ์ํ, 66%๋ ์์ ํ ์๋ฃ
Gemini 2.0(2024๋ ๋ง ๊ณต๊ฐ)
๐น Gemini 2.0 Flash
- ์๋์ ํจ์จ์ฑ์ ์ด์
- 1.5 Pro๋ณด๋ค ๋ ๋น ๋ฅด๋ฉด์๋ ๋์ ํ์ง ์ ์ง
- ํ ์คํธ ์ฒ๋ฆฌ, ์ฝ๋ ์์ฑ, ๋น๋์ค ๋ถ์, ๊ณต๊ฐ ์ถ๋ก (Spatial Reasoning) ๋ฑ ํฅ์
- ํนํ ์์ ๊ฐ์ฒด ์ธ์ ๋ฐ ์บก์ ์์ฑ ๋ฅ๋ ฅ ๊ฐํ
๐น Gemini 2.0 Pro
- ๋ค์ํ ์์ ์ ๊ณ ์ฑ๋ฅ ์ ์ฉ ๊ฐ๋ฅํ ๋ฒ์ฉ ๋ชจ๋ธ
- ์๋์ Gemini Pro๋ณด๋ค ๋ค์ํ ๋๋ฉ์ธ์์ ํฅ์๋ ์ฑ๋ฅ ์ ๊ณต
๐น Gemini 2.0 Nano
- ๋ชจ๋ฐ์ผ ๋ฑ ๊ธฐ๊ธฐ ๋ด(on-device) ์คํ ์ต์ ํ
- ์๋์ ์์ ํจ์จ์ฑ์ด ๊ฐ์
๐น Gemini 2.0 Flash Thinking Experimental
- ๊ณ ์ฑ๋ฅ ์ถ๋ก ์ ์ฉ ์คํ ๋ชจ๋ธ
- โ์๊ฐ ๊ณผ์ ์ ์๊ฐ์ ์ผ๋ก ๋ณด์ฌ์ฃผ๋โ ํด์ค ๊ธฐ๋ฅ ํฌํจ
- ์ํ, ๊ณผํ ๋ฑ ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ์ ๊ฐ๋ ฅํ ์ฑ๋ฅ
- ์ ๋ ฅ: ํ ์คํธ + ์ด๋ฏธ์ง
- ์ถ๋ ฅ: ํ ์คํธ
- ์ง์: ์ต๋ 100๋ง ํ ํฐ ์ ๋ ฅ, 64,000 ํ ํฐ ์ถ๋ ฅ
- ์ฝ๋ ์คํ ๊ฐ๋ฅ, ์ง์ ์ปคํธ์คํ: 2024๋ 8์
- ์ง์ฐ(latency)๋ณด๋ค ์ ํ์ฑ์ด ์ค์ํ ์์ ์ ์ ํฉ
- Google AI Studio, Gemini API, Vertex AI์์ ์ ๊ณต (์คํ์ ์ ๊ณต ์ค)
๐ Google์ ์คํ ์ธ์ด ๋ชจ๋ธ ์๋ฆฌ์ฆ โ Gemma
๐งฌ ๊ณตํต ๊ธฐ๋ฐ
- Gemini ๋ชจ๋ธ๊ณผ ๋์ผํ ์ฐ๊ตฌ ๋ฐ ๊ธฐ์ ๊ธฐ๋ฐ
- ๊ฐ๋ณ๊ณ ํจ์จ์ ์ธ ๋ชจ๋ธ ๊ตฌ์ฑ
- ์คํ์์ค LLM ์ํ๊ณ์ ๊ธฐ์ฌ
๐ชถ Gemma 1
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ง ํ๋ผ๋ฏธํฐ ์ | 2B (๊ฒฝ๋ํ) |
๐ ํ์ต ๋ฐ์ดํฐ | 6์กฐ ํ ํฐ |
๐ก ์ดํ ํฌ๊ธฐ | 256,000 ๋จ์ด |
โก ํน์ง | ๋จ์ผ GPU์์๋ ๊ณ ํจ์จ ์คํ ๊ฐ๋ฅ |
๐ ๊ณต๊ฐ ์ฌ๋ถ | โ ์คํ์์ค (๊ณต๊ฐ LLM ์ปฌ๋ ์ ์ ํฌํจ) |
๐ Gemma 2
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ง ํ๋ผ๋ฏธํฐ ์ | 27B |
๐ ์ฑ๋ฅ | **LLaMA 3 (70B)**์ ํ์ ํ๋ ์ฑ๋ฅ |
๐ฏ ๋ชฉ์ | ๊ณ ์ฑ๋ฅ + ๊ณ ํจ์จ + ์คํ ์ก์ธ์ค |
๐ง ํธํ์ฑ | ๋ค์ํ ํ๋ ํด์ฒด์ธ๊ณผ ํธํ (ํด๋ผ์ฐ๋, ์ปค๋ฎค๋ํฐ ๋๊ตฌ ๋ฑ) |
๐งฉ ์ ์ฉ ๋ฒ์ | ํญ๋์ AI ๊ฐ๋ฐ์ ์ฌ์ฉ์ ์ ํฉ |
๐ง Gemma 3 (์ต์ )
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ ์ ๋ ฅ ์ ํ | ํ ์คํธ + ์ด๋ฏธ์ง ์ ๋ ฅ, ํ ์คํธ ์ถ๋ ฅ (๋ฉํฐ๋ชจ๋ฌ) |
๐ง ํ๋ผ๋ฏธํฐ ์ข ๋ฅ | 1B / 4B / 12B / 27B โ ๋ค์ํ ํ๋์จ์ด ํ๊ฒฝ ์ง์ |
๐ ์ปจํ ์คํธ ๊ธธ์ด | ์ต๋ 128K ํ ํฐ |
๐ ์ธ์ด ์ง์ | 140๊ฐ ์ด์ ์ธ์ด |
๐งญ ํ์ฉ ์ฉ๋ | ๊ฒฝ๋ ๊ธฐ๊ธฐ๋ถํฐ ๊ณ ์ฑ๋ฅ ์๋ฒ๊น์ง ๋ค์ํ ํ๊ฒฝ ๋์ ๊ฐ๋ฅ |
๐ฆ Meta์ LLaMA ์๋ฆฌ์ฆ ์์ฝ
๐ง ๊ณตํต ๊ตฌ์กฐ
- ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ
- ๋์ฝ๋ ์ ์ฉ(Decoder-only) ์ํคํ ์ฒ
- GPT ๊ณ์ด๊ณผ ์ ์ฌ
- ์ ๋ ฅ๋ ํ ํฐ์ ๋ฐํ์ผ๋ก ๋ค์ ํ ํฐ ์์ธก
๐ฆ LLaMA 1
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ ํฌ๊ธฐ | 7B, 13B, 30B, 65B |
๐ ํน์ง | - ๊ฐ๋ ฅํ ์ฑ๋ฅ - ์คํ์์ค ๋ชจ๋ธ ์ค ์ฐ์ํ ํผํฌ๋จผ์ค |
๐ฆ LLaMA 2
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ ํฌ๊ธฐ | 7B, 13B, 70B |
๐ผ ๋ผ์ด์ ์ค | ์์ ์ ์ฌ์ฉ ํ์ฉ |
๐ ํฅ์ ๋ด์ฉ | - ํ์ต ๋ฐ์ดํฐ 40% ์ฆ๊ฐ - ๋ฌธ๋งฅ ๊ธธ์ด 2๋ฐฐ (4096 tokens) - Grouped-Query Attention ๋์ |
๐จ๏ธ ๋ํ ํนํ | LLaMA 2-Chat: ์ฑํ ์ ์ต์ ํ๋ ํ๋ ๋ชจ๋ธ |
๐ฆ LLaMA 3
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ง ๋ชฉํ | ์ถ๋ก , ์ฝ๋ฉ, ์ง์ ๋ถ์ผ ์ฑ๋ฅ ํฅ์ |
๐ ์์ ์ฑ | ์ ํด ์ถ๋ ฅ ๊ฐ์ ์ํ ํ์ต ๋ฐ ์ ๋ ฌ ๊ฐํ |
๐ ๊ธฐ๋ ์ฌํญ | - ๋ ๋์ ํฌ๊ธฐ ๋ฒ์ - ๋ค์ํ ํ์ฉ ์์ญ ๋์ |
๐ฆ LLaMA 3.2 (์ต์ )
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ ๋ค๊ตญ์ด ์ง์ | ํ ์คํธ ์ ์ฉ + ๋ฉํฐ๋ชจ๋ฌ(๋น์ LLM ํฌํจ) |
โ๏ธ ๊ฒฝ๋ํ | ์์ํ ๋ฒ์ ์ ๊ณต โ ๊ธฐ๊ธฐ ๋ด ์คํ ๊ฐ๋ฅ |
๐ก ์ดํ | 128K ํ ํฐ ์ดํ ์งํฉ |
โก ๊ธฐ์ | Grouped-Query Attention ์ ์ง |
๐ Mixtral โ Mistral AI์ ๊ณ ์ฑ๋ฅ SMoE ๋ชจ๋ธ
๐งฑ ๋ชจ๋ธ ๊ฐ์
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ง ๋ชจ๋ธ๋ช | Mixtral 8x7B |
๐งฌ ๊ตฌ์กฐ | Sparse Mixture of Experts (SMoE) |
๐ข ์ด ํ๋ผ๋ฏธํฐ ์ | 47B (์ ์ฒด), 13B๋ง ํ์ฑํ๋จ (ํ ํฐ๋น) |
โก ์ถ๋ก ํจ์จ์ฑ | ๋ ๋น ๋ฅธ ์ถ๋ก ๊ณผ ๋์ ์ฒ๋ฆฌ๋ ์ ๊ณต |
๐ง ์ฑ๋ฅ ๋ฐ ํ์ฉ ์์ญ
-
์ํ ๋ฌธ์ ํด๊ฒฐ
-
์ฝ๋ ์์ฑ
-
๋ค๊ตญ์ด ์ฒ๋ฆฌ(Multilingual)
-
์ ๋ถ์ผ์์ LLaMA 2 70B๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ ๋ณด์
๐ ๋ฌธ๋งฅ ๊ธธ์ด ์ง์: ์ต๋ 32,000 ํ ํฐ
๐ ํ๋ ๋ชจ๋ธ โ Mixtral 8x7B-Instruct
-
์ง์์ด ๊ธฐ๋ฐ(Instruct tuning) ๋ชจ๋ธ
-
์ฌ๋ ํ๊ฐ ๊ธฐ์ค์ผ๋ก ์ฌ๋ฌ ํ์ํ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ๊ฒฐ๊ณผ ๋ฌ์ฑ
๐ ์คํ์์ค ๋ฐ ์ ๊ทผ์ฑ
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ ๋ผ์ด์ ์ค | Apache 2.0 โ ์์ ํ ์คํ ์ก์ธ์ค |
โ๏ธ API ์ ๊ณต | ๋ค์ํ ๋ชจ๋ธ ํฌ๊ธฐ ๋ฐ ๊ธฐ๋ฅ์ ์ ๊ณตํ์ฌ ์ฌ์ฉ์์ ์๊ตฌ์ ๋ง์ถ API ํ์ฉ ๊ฐ๋ฅ |
๐ง OpenAI O1
OpenAI์ ์๋ก์ด โO1โ ์๋ฆฌ์ฆ๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ํ๊ธฐ์ ์ธ ๋์ฝ์ ๋ณด์ฌ์ฃผ๋ ๋ชจ๋ธ๊ตฐ์ผ๋ก,
๋ณต์กํ ์ถ๋ก ๋ฅ๋ ฅ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฉฐ,
**๊ฐํํ์ต(์ฌ๊ฐํ ํ์ต, Reinforcement Learning)**์ ํตํด ์ด๋ฌํ ๋ฅ๋ ฅ์ ์ ๊ตํ๊ฒ ๋ค๋ฌ์์ต๋๋ค.
๐ ์ฒด์ธ ์ค๋ธ ์ํธ(Chain-of-Thought) ๋ด๋ถ ์ฒ๋ฆฌ
-
O1 ๋ชจ๋ธ์ ๋ด๋ถ์ ์ผ๋ก **โ์๊ฐ์ ํ๋ฆ(Chain of Thought)โ**์ ์ ์ฉํด,
์๋ต์ ์์ฑํ๊ธฐ ์ ๊น์ด ์๋ ์ฌ๊ณ (deliberation) ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค. -
์ด๋ฌํ ์ ์คํ ์ถ๋ก ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์ ๋๋ถ์
๋ณต์กํ ๊ณผํ์ ์ถ๋ก ๋ฌธ์ ์์๋ ํ์ํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
๐ ๋ฒค์น๋งํฌ ์ฑ๋ฅ
O1 ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ๊ณ ๋์ด๋ ๋ฒค์น๋งํฌ์์ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค:
-
Codeforces ํ๋ก๊ทธ๋๋ฐ ๋ํ: ์์ 89 ํผ์ผํ์ผ
-
AIME(๋ฏธ๊ตญ ์ํ ์ฌ๋ฆผํผ์๋ ์์ ): ์ ๊ตญ ์์ 500์๊ถ
-
GPQA (๋ฌผ๋ฆฌํ, ์๋ฌผํ, ํํ ํฌํจ ๊ณ ๋์ด๋ ๊ณผํ ๋ฌธ์ ์ง):
โ ๋ฐ์ฌ๊ธ ์ธ๊ฐ ์ ํ๋(PhD-level human accuracy) ๋ฅ๊ฐ
โ๏ธ API ์ ๊ณต ๋ชจ๋ธ
-
o1 (์ฃผ๋ ฅ ๋ชจ๋ธ)
- ๊ด๋ฒ์ํ ์ผ๋ฐ ์ง์์ด ํ์ํ ๋์ด๋ ๋์ ๋ฌธ์ ํด๊ฒฐ์ ์ต์ ํ
-
o1-mini (๊ฒฝ๋ ๊ณ ์ ๋ชจ๋ธ)
-
๋ ๋น ๋ฅด๊ณ ๋น์ฉ ํจ์จ์
-
์ฝ๋ฉ, ์ํ, ๊ณผํ์ฒ๋ผ ํนํ๋ ๊น์ ์ง์์ด ์ค์ํ ์์ญ์์ ๋ฐ์ด๋จ
-
๐ง DeepSeek
DeepSeek๋ OpenAI์ O1 ์๋ฆฌ์ฆ์ ํ์ ํ๋ ๊ณ ๊ธ ์ถ๋ก ๋ฅ๋ ฅ์
๊ด๋ฒ์ํ ๋ผ๋ฒจ๋ง ๋ฐ์ดํฐ ์์ด, ์๋ก์ด ๊ฐํ ํ์ต ๊ธฐ๋ฒ์ ํตํด ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๋ํ์ ์ธ ์๊ฐ DeepSeek-R1-Zero ๋ชจ๋ธ์
๋๋ค.
์ด ๋ชจ๋ธ์ **์ค์ง ๊ฐํํ์ต(RL)**๋ง์ผ๋ก ํ๋ จ๋์์ต๋๋ค.
๐ ๊ธฐ์กด RL ๋ฐฉ์ vs DeepSeek ๋ฐฉ์
โ ๊ธฐ์กด ๋ฐฉ์:
- ๋๋ถ๋ถ์ LLM์ฉ ๊ฐํํ์ต์ โ๋นํ์(Critic)โ ๋ชจ๋ธ์ ํ์๋ก ํจ
โ ์ด๋ ์ฌ๋์ด ๋ผ๋ฒจ๋งํ ๋ฐ์ดํฐ๋ก ํ์ต๋์ด, ๋ชจ๋ธ ์ถ๋ ฅ์ ํผ๋๋ฐฑ ์ ๊ณต
โ DeepSeek์ ํ์ : GRPO (Group Relative Policy Optimization)
-
๋นํ์ ์์ด ์๋
-
๋ฏธ๋ฆฌ ์ ์๋ ๊ท์น(์: ์ผ๊ด์ฑ, ์์ฑ๋, ์ ์ฐฝ์ฑ)์ ๊ธฐ์ค์ผ๋ก
์ฌ๋ฌ ์ถ๋ ฅ ๊ฒฐ๊ณผ์ ์ ์๋ฅผ ๋งค๊น -
๋ชจ๋ธ์ ์์ ์ ์ถ๋ ฅ์ด ์ง๋จ ํ๊ท ๋ณด๋ค ์ข์์ง ๋น๊ตํ๋ฉฐ ํ์ตํจ
โ ์ผ์ข ์ ์๊ธฐ ๋๊ฒฐ(Self-play) ๋ฐฉ์
๐ ์ด๊ธฐ ๋ฌธ์ ์
-
DeepSeek-R1-Zero๋ **๊ณ ๋๋ ์ํ ์ถ๋ก (AIME 2024)**์์ O1๊ณผ ๋๊ธ ์ฑ๊ณผ๋ฅผ ๋ณด์์ง๋ง,
์ด๋ฐ์๋ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค:-
๋ฌธ์ฅ ๊ฐ๋ ์ฑ ๋ถ์กฑ
-
์ธ์ด ํผ์ฉ ํ์ ๋ฐ์
-
๐ ๏ธ DeepSeek-R1์ ๋ค๋จ๊ณ ํ๋ จ ํ๋ก์ธ์ค
-
1๋จ๊ณ: SFT (Supervised Fine-Tuning)
- ์๊ท๋ชจ โ์ฝ๋ ์คํํธโ ๋ฐ์ดํฐ์ ์ผ๋ก ๊ธฐ๋ณธ ์ธ์ด ์ดํด๋ ฅ ํ์ฑ
-
2๋จ๊ณ: ์์ ๊ฐํํ์ต (Pure-RL)
-
GRPO ์ ์ฉ โ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์
-
DeepSeek-R1-Zero ๋ฐฉ์๊ณผ ์ ์ฌ
-
-
3๋จ๊ณ: ๊ฑฐ์ ์ํ๋ง (Rejection Sampling)
-
๋ชจ๋ธ์ด ์ฌ๋ฌ ๊ฐ์ ์ถ๋ ฅ ์์ฑ โ GRPO ๊ธฐ์ค์ผ๋ก ๊ฐ์ฅ ์ข์ ๊ฒ๋ง ์ ํ
-
์ด๋ฅผ ํตํด ๊ณ ํ์ง โํฉ์ฑ ๋ฐ์ดํฐ์ โ ์์ฑ
-
-
4๋จ๊ณ: ์ต์ข SFT + RL
-
๊ธฐ์กด ๊ฐ๋ ํ์ต ๋ฐ์ดํฐ + ํฉ์ฑ ๋ฐ์ดํฐ ๊ฒฐํฉ
-
๋ง์ง๋ง์ผ๋ก ์ ์ฒด ์ฑ๋ฅ์ ๋ค๋ฌ๊ณ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฐํ
-
๐ ๊ฒฐ๊ณผ: DeepSeek-R1
-
O1 ๋ชจ๋ธ์ ๋ฅ๊ฐํ๊ฑฐ๋ ๋๊ธ ์ฑ๋ฅ ๋ฌ์ฑ
-
๋ณต์กํ ๋ฌธ์ ์์์ Chain-of-Thought ์ถ๋ก ์
โ ์ด ํ๋ จ ๋ฐฉ์๊ณผ ๋ณธ์ง์ ์ผ๋ก ์ฐ๊ฒฐ
โ ๏ธ ์คํ์์ค? ๋ฐ์ฏค๋ง
-
DeepSeek๋ ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ์ ๊ณตํ์ง๋ง
-
ํ๋ จ ๋ฐ์ดํฐ,
-
์ฒ๋ฆฌ ์คํฌ๋ฆฝํธ,
-
๋ฐ์ดํฐ ์ ์ ๊ณผ์ ์ ๋ํ ํฌ๋ช ์ฑ์ด ์์ด
โ ์ฌ์ค์ ํ์ํ ๋ชจ๋ธ
-
๐ ๊ธฐํ ์คํ ์ธ์ด ๋ชจ๋ธ(Open LLMs)
์คํ์์ค LLM ์ํ๊ณ๋ ๋งค์ฐ ๋น ๋ฅด๊ฒ ๋ฐ์ ์ค์ด๋ฉฐ,
์ฝ๋์ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น๊ฐ ๋ชจ๋ ๊ณต๊ฐ๋ ๋ชจ๋ธ๋ ์ ์ ๋ง์์ง๊ณ ์์ต๋๋ค.
์๋๋ ๋ํ์ ์ธ ์์๋ค์
๋๋ค:
๐ธ Qwen 1.5 (by Alibaba)
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ง ๋ชจ๋ธ ํฌ๊ธฐ | 0.5B, 1.8B, 4B, 7B, 14B, 72B |
๐ ๋ฌธ๋งฅ ๊ธธ์ด | ์ต๋ 32,000 ํ ํฐ ์ง์ |
๐ ์ฑ๋ฅ | - ๋ค์ํ ๋ฒค์น๋งํฌ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ |
-
ํนํ Qwen 1.5-72B๋ LLaMA 2-70B๋ฅผ ์ ๋ฒค์น๋งํฌ์์ ๋ฅ๊ฐ
-
์ธ์ด ์ดํด, ์ถ๋ก , ์ํ ๋ถ์ผ์์ ๋ฐ์ด๋จ
๐ธ Yi (by 01.AI)
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ง ๋ชจ๋ธ ํฌ๊ธฐ | 6B, 34B |
๐ ํ์ต ๋ฐ์ดํฐ | ์์ด + ์ค๊ตญ์ด ํฌํจ ์ด 3.1์กฐ ํ ํฐ |
๐ ๋ฌธ๋งฅ ๊ธธ์ด | 200K ํ ํฐ ๋ฒ์ ๋ ์์ |
๐ธ ํ์ฅ ๋ชจ๋ธ | Yi-VL (๋น์ -์ธ์ด ๋ชจ๋ธ) |
โ๏ธ ํจ์จ์ฑ | - 4๋นํธ ์์ํ๋ก ์ผ๋ฐ GPU์์๋ ์คํ ๊ฐ๋ฅ |
๐ฏ ์ฑ๋ฅ | 34B ๋ชจ๋ธ์ GPT-3.5์ ํ์ ํ๋ ์ฑ๋ฅ |
โ ๋ฐ์ดํฐ ํ์ง | ์ฒ ์ ํ ์ ์ ๋ฐ ํํฐ๋ง์ผ๋ก ๋ฐ์ดํฐ ํ์ง ๊ฐ์กฐ |
๐ธ Grok 3 (by xAI, ์ผ๋ก ๋จธ์คํฌ ์ฃผ๋)
ํญ๋ชฉ | ๋ด์ฉ |
---|---|
๐ง ๋ชจ๋ธ ์ข ๋ฅ | Grok 3 (Think), Grok 3 mini (Think) |
๐ง ํ์ต ๋ฐฉ์ | ๊ฐํํ์ต ๊ธฐ๋ฐ(RL) |
๐ค ํน์ง | - ์ค๋ต ์์ (backtracking) |
-
๋จ๊ณ ๋จ์ํ, ์ฌ์ ํ์ต ์ง์ ํ์ฉ ๋ฑ ์ ๋ต ํ์ต
| ๐ ๋ฌธ๋งฅ ๊ธธ์ด | ์ต๋ 100๋ง ํ ํฐ -
์ด์ ๋ชจ๋ธ๋ณด๋ค 8๋ฐฐ ์ฆ๊ฐ
Summary Model
Fine-tuning large language models
๋ํ ์ธ์ด ๋ชจ๋ธ์ ๋ณดํต ์ฌ๋ฌ ๋จ๊ณ์ ํ๋ จ์ ๊ฑฐ์ณ ๋ง๋ค์ด์ง๋ค. ๊ทธ ์ค ์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ ์ฌ์ ํ์ต(pre-training)์ด๋ผ๊ณ ํ๋ค.
์ฌ์ ํ์ต(Pre-training)
- ์ ์ : ๋ค์ํ ์ข ๋ฅ์ ๋ผ๋ฒจ ์๋ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด, ์์ ๋์จ ๋จ์ด๋ค์ ๋ณด๊ณ ๋ค์์ ์ด๋ค ๋จ์ด๊ฐ ๋์ฌ์ง ์์ธกํ๋ ์ฐ์ต์ ์ํค๋ ๊ณผ์ ์ด๋ค.
- ์ด ๊ณผ์ ์ ํตํด ๋ชจ๋ธ์ ์ธ์ด๋ฅผ ์ดํดํ๊ณ ๋ง๋ค์ด๋ด๋ ๊ธฐ๋ณธ ๋ฅ๋ ฅ์ ์ป๊ฒ ๋๋ค.
ํ์ธํ๋(Fine-tuning, ๋ฏธ์ธ์กฐ์ )
- ์ ์ : ์ฌ์ ํ์ต์ด ๋๋ ๋ชจ๋ธ์๊ฒ ํน์ ํ ์๋ฌด๋ฅผ ๋ ์ ํ๋๋ก ์ถ๊ฐ๋ก ํ๋ จ์ํค๋ ๊ณผ์ ์ด๋ค.
- ํ์ธํ๋์ ์ง์๋ฅผ ๋ฐ๋ฅด๊ฒ ํ๋ ํ๋ จ ๋๋ ๊ฐ๋ ํ์ต ํ์ธํ๋์ด๋ผ๊ณ ํ๋ค.
- ์ด๋๋ ํน์ ์์ ์ ๋ํ ์์ ๋ฐ์ดํฐ(์ ๋ต ํฌํจ)์ ์ฌ์ฉํ๋ค.
ํ์ธํ๋์ ํตํด ์ข์์ง ์ ์๋ ์๋ค
- Instruction-tuning
- ์ : โ์ด ๊ธ์ ์์ฝํด์คโ, โ์ด ์ฝ๋๋ฅผ ์ง์ค.โ
- Dialogue-tuning
- ์ : ์ง๋ฌธ๊ณผ ๋ต๋ณ ํํ๋ก ๋ํํ๋ ํ๋ จ (์ฌ๋ฌ ๋ฒ ์ฃผ๊ณ ๋ฐ๋ ๋ํ - ๋ฉํฐํด ๋ค์ด์ผ๋ก๊ทธ)
- Safety tuning(์์ ์ฑ ํ๋ จ)
- ๋ชจ๋ธ์ด ํธ๊ฒฌ, ์ฐจ๋ณ, ๊ณต๊ฒฉ์ ์ธ ๋ง์ ํ์ง ์๋๋ก ๋ง๋๋ ๊ณผ์
- ์ฌ๋์ด ์ง์ ํ์ธํ๊ณ ํผ๋๋ฐฑ์ ์ฃผ๋ ๋ฐฉ์(Human-in-the-loop)
- RLHF(์ฌ๋์ ํผ๋๋ฐฑ์ ํ์ฉํ ๊ฐํํ์ต)
Supervised fine-tuning
์์์ ์ธ๊ธํ ๊ฒ์ฒ๋ผ SFT๋ LLM์ ์ฑ๋ฅ์ ํน์ ์์ ์ด๋ ์์ ์งํฉ์ ๋ํด ํฅ์์ํค๊ธฐ ์ํด, ๋๋ฉ์ธ ํนํ๋๊ณ ๋ผ๋ฒจ์ด ์๋ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ์ถ๊ฐ ํ์ต์ํค๋ ๊ณผ์ ์ ๋๋ค. ์ด๋ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์ ์ ๋ณดํต ์ฌ์ ํ์ต ๋ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ๋ณด๋ค ํจ์ฌ ์๊ณ , ์ฌ๋์ด ์ง์ ์ ๋ณํ ๊ณ ํ์ง์ ๋ฐ์ดํฐ์ธ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ์ด๋ฐ ํ๊ฒฝ์์ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ ์ ๋ ฅ(prompt)๊ณผ ์์ ์๋ต(target response)์ผ๋ก ๊ตฌ์ฑ๋๋ค.
- ์ง๋ฌธ(prompt)๊ณผ ๋ต๋ณ(target response)
- ํ ์ธ์ด(prompt)์์ ๋ค๋ฅธ ์ธ์ด(target response)๋ก์ ๋ฒ์ญ
- ์์ฝํ ๋ฌธ์(prompt)์ ๊ทธ์ ํด๋นํ๋ ์์ฝ(target response)
์ค์ํ ์ ์ ํ์ธํ๋์ ์์์ ๋งํ ํน์ ์์ ์์์ ์ฑ๋ฅ ํฅ์๋ฟ๋ง ์๋๋ผ, ๋ชจ๋ธ์ด ๋ ์์ ํ๊ณ ๋ ๊ณต๊ฒฉ์ ์ด๋ฉฐ ๋ ๋ํํ์ด๊ณ ์ง์๋ฅผ ์ ๋ฐ๋ฅด๋ ๋ฐฉํฅ์ผ๋ก ํ๋์ ๊ฐ์ ํ๋ ๋ฐ์๋ ์ฐ์ผ ์ ์๋ค.
์ธ๊ฐ ํผ๋๋ฐฑ์ ์ด์ฉํ ๊ฐํํ์ต(Reinforcement Learning from Human Feedback, RLHF)
๋ณดํต SFT(๊ฐ๋ ํ์ต ํ์ธํ๋)์ด ๋๋ ํ, ๋ ๋ฒ์งธ ํ์ธํ๋ ๋จ๊ณ๋ก RLHF์ด๋ผ๋ ๊ณผ์ ์ ์งํํ๋ค. ์ด ๊ธฐ์ ์ LLM์ด ์ฌ๋์ ์ ํธ์ ๋ ์ ๋ง๋ ์๋ต์ ํ๋๋ก ๋์์ฃผ๋ ๊ฐ๋ ฅํ ํ์ธํ๋ ๋ฐฉ๋ฒ์ด๋ค. ์๋ฅผ ๋ค์ด, ๋ชจ๋ธ์ ์๋ต์ ๋ ๋์์ด ๋๊ฒ, ์ฌ์ค์ ๊ฐ๊น๊ฒ, ์์ ํ๊ฒ ๋ง๋ค์ด์ฃผ๋ ๊ฒ์ด๋ค.
SFT์ RLHL์ ์ฐจ์ด์
- SFT๋ ๋ชจ๋ธ์๊ฒ ์ข์ ์์(์ง๋ฌธ-๋ต๋ณ์)๋ง ๋ณด์ฌ์ค์ ํ์ต์ํค๋ ๋ฐฉ์์ด์์
- RLHF๋ ์ฌ๊ธฐ์ ์ ์ข์ ์์๋ ๋ณด์ฌ์ฃผ๊ณ , ๋ชจ๋ธ์ด ์ํ์ง ์๋ ์๋ต์ ํ๋ฉด ๋ฒ์ ์ ์ค์, ์ ์ข์ ์๋ต์ ๋ ํ๊ฒ ํ๋ จ์ํจ๋ค. โ ๊ทธ๋์ ๋ ์์ ํ๊ณ ์ ์ตํ ์๋ต์ ์์ฑํ ๊ฐ๋ฅ์ฑ์ด ๋์์ง๋ค.
๋ณด์ ๋ชจ๋ธ(Reward Model, RM) RLHL๋ฅผ ์ฌ์ฉํ๋ ค๋ฉด ๋จผ์ ๋ณด์ ๋ชจ๋ธ์ ํ๋ จํด์ผ ํ๋ค. ์ด ๋ชจ๋ธ์ ๊ธฐ๋ณธ์ ์ผ๋ก ์ฌ์ ํ์ต๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ์์ํ๊ณ , ์ฌ๋์ ์ ํธ๊ฐ ๋ด๊ธด ๋ฐ์ดํฐ๋ก ํ๋ํ๋ค. ๋ณด์ ๋ชจ๋ธ ํ๋ จ ๋ฐฉ์ ์์
- ํ ์์ ์๋ต(A์ B) ์ค์์ ์ด๋ค ๊ฒ ๋ ์ข์์ง ์ฌ๋์๊ฒ ๋ฌผ์ด๋ณธ๋ค.
- ์ด๋ ์ฌ๋์ ์ ํ์ด ๋ฐ๋ก human feedback์ด๋ค.
ํผ๋๋ฐฑ(์ ํธ๋) ํ์์ ์์
- ์ด์ง๊ฐ : ์ข์/๋์จ
- ๋ฆฌ์ปค๋ ์ฒ๋ : ์ ์๋ก ํ๊ฐ(์ : 1์ ~ 5์ )
- ์์ : ์๋ต์ด 2๊ฐ ์ด์์ผ ๋ ์ด๋ค ๊ฒ ๋ ์ข์์ง ์์๋๋ก ํ๊ฐ
- ์์ธ ํ๊ฐ : ๋ฌธ์ฅ์ ์ง, ์์ ์ฑ, ๋์๋จ, ๊ณต์ ์ฑ, ์ฌ์ค์ฑ ๋ฑ ๋ค์ํ ๊ธฐ์ค์ ํจ๊ป ๊ณ ๋ ค
RLHF ์ ์ฒด ๊ณผ์ ์์ฝ
- ๋ณด์ ๋ชจ๋ธ(RM)์ ์ฌ๋์ ํผ๋๋ฐฑ ๋ฐ์ดํฐ๋ก ํ๋ จ
- ์ด RM์ ์ฌ์ฉํด์, ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉ
- ๊ธฐ์กด์ instruction-tuning๊น์ง ๋๋ LLM์ ์ฌ๋์ด ์ ํธํ๋ ๋ฐฉ์์ผ๋ก ๋ ์ ๊ตํ๊ฒ ํ๋
์ธ๊ฐ ๋์ AI๊ฐ ํ๊ฐํ๋ ๋ฐฉ๋ฒ: RLAIF RLHF๋ ์ฌ๋์ด ์ง์ ํผ๋๋ฐฑ์ ์ค์ผ ํด์ ๋น์ฉ์ด ๋ง์ด ๋ ๋ค.๊ทธ๋์ ์ต๊ทผ์๋ AI๊ฐ ์ฌ๋ ๋์ ํผ๋๋ฐฑ์ ์ฃผ๋ ๋ฐฉ์๋ ์ด๋ค. ์ด๋ฅผ RLAIF(Reinforcement Learning from AI Feedback)์ด๋ผ๊ณ ํ๋ค. ๋ํ ์ต๊ทผ์๋ ๋ณด์ ๋ชจ๋ธ์ด๋ ๊ฐํํ์ต ์์ด๋ RLHF๋ฅผ ๋์ฒดํ๋ ๋ฐฉ๋ฒ๋ ์ฐ๊ตฌ๋๊ณ ์๋ค. ์ : DPO(Direct Preference Optimization)
[1๋จ๊ณ] ์ฌ์ ํ์ต๋ ๋ชจ๋ธ (Pretrained LLM)
|
v
[2๋จ๊ณ] ์ง์ ๋ฐ๋ฅด๊ธฐ ํ๋ จ (Instruction Tuning, SFT)
- ์์: ์ง๋ฌธ โ ์ ๋ต ์๋ ค์ฃผ๋ฉฐ ํ์ต
|
v
[3๋จ๊ณ] ๋ณด์ ๋ชจ๋ธ ํ๋ จ (Reward Model Training)
- ์ฌ๋๋ค์๊ฒ 2๊ฐ์ ์๋ต ๋ณด์ฌ์ฃผ๊ณ , ๋ ๋์ ์๋ต ์ ํํ๊ฒ ํจ
- ์์:
์ง๋ฌธ: "์ค๋ ๋ ์จ ์ด๋?"
์๋ต A: "์ข์์."
์๋ต B: "์์ธ์ ๋ง๊ณ 22๋์์."
โ ์ฌ๋์ B๋ฅผ ์ ํ!
|
v
[4๋จ๊ณ] ๋ณด์ ๋ชจ๋ธ ์์ฑ (RM)
- ์ด์ RM์ ์ด๋ค ์๋ต์ด ์ข์์ง ์ ์๋ฅผ ์ค ์ ์์
|
v
[5๋จ๊ณ] ๊ฐํ ํ์ต ์์ (RL)
- ๊ธฐ์กด LLM์ด ์ฌ๋ฌ ์๋ต์ ์์ฑํจ
- RM์ด ์๋ต์ ํ๊ฐํ์ฌ ์ ์๋ฅผ ์ค (๋ณด์/๋ฒ์ )
- ์ ์๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ด ์ค์ค๋ก ๋ ๋์ ๋ต์ ์์ฑํ๋๋ก ํ์ต
|
v
[6๋จ๊ณ] RLHF ์๋ฃ๋ LLM ๐
- ์ด์ ์ฌ๋์ ์ ํธ์ ๋ ์ ๋ง๋ ๋ต๋ณ์ ์์ฑํจ
- ๋ ์์ ํ๊ณ , ๋์๋๊ณ , ์ฌ์ค์ ์ธ ์๋ต ๊ฐ๋ฅ!
PEFT(Parameter Efficient Fine-Tuning)
์์ ๋ฐฐ์ด SFT(๊ฐ๋ ํ์ต ํ์ธํ๋)๋ RLHF(์ธ๊ฐ ํผ๋๋ฐฑ์ ์ด์ฉํ ๊ฐํํ์ต)๋ ์ฑ๋ฅ์ด ์ข๊ธด ํ์ง๋ง, ์์ฒญ๋๊ฒ ๋ง์ ๊ณ์ฐ ์์(GPU, ์๊ฐ ๋ฑ)์ด ํ์ํ๋ค. ์๋ํ๋ฉด ๋ชจ๋ธ ์ ์ฒด๋ฅผ ๋ค์ ํ๋ จ์์ผ์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋ฌธ์ ๋ฅผ ํจ์ฌ ์ธ๊ณ ๋น ๋ฅด๊ฒ ํด๊ฒฐํ ์ ์๋ ๋ฐฉ๋ฒ์ด PEFT์ด๋ค.
PEFT๋?
PEFT๋ ๋ชจ๋ธ ์ ์ฒด๋ฅผ ํ๋ จํ๋ ๋์ , ์์ฃผ ์์ ์ผ๋ถ๋ง ์ด์ง ๋ฐ๊พธ๋ ๋ฐฉ์์ด๋ค. PEFT๋ ์๋ ๋ฐฉ์
- ์ด๋ฏธ ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ์ ธ์จ๋ค.
- ๊ทธ ๋ชจ๋ธ์ ์์ ์๋ก์ด ๋ง๋ถ์์ ์ถ๊ฐํ๋ค.
- ์ด ๋ง๋ถ์๋ง ํ์ต์์ผ์ ๋ชจ๋ธ์ ์๋ก์ด ์์ ์ ๋ง๊ฒ ์กฐ์ ํ๋ค.
๋ํ์ ์ธ PEFT ๋ฐฉ๋ฒ๋ค
- ์ด๋ํฐ ๊ธฐ๋ฐ ํ์ธํ๋(Adapter-based Fine-Tuning)
- ๊ธฐ์กด ๋ชจ๋ธ์ ์์ ๋ชจ๋์ ๋ถ์ด๋ค.
- ์ ์ฒด ๋ชจ๋ธ์ ๋ฐ๊พธ์ง ์๊ณ , ์ด ์ด๋ํฐ ๋ถ๋ถ๋ง ํ์ตํ๋ค.
- ๋ก์ฐ๋ญํฌ ์ด๋ํ
์ด์
(LoRA : Low-Rank Adaptation)
- ๊ธฐ์กด ๋ชจ๋ธ์ ํฐ ํ๋ ฌ์ ์ง์ ๋ฐ๊พธ์ง ์๊ณ , ๋์ ์ ์์ 2 ๊ฐ์ ํ๋ ฌ๋ก ์ ๋ฐ์ดํธ๋ฅผ ํ๋ด๋ธ๋ค.
- ์๋ ๋ชจ๋ธ์ ๊ทธ๋๋ก ๋๊ณ , LoRA ๋ถ๋ถ๋ง ํ์ตํ๋ค.
- ์ต์ ๊ธฐ์ ์ธ QLoRA๋ ์ด ํ๋ ฌ์ ์์ถํด์ ๋ ํจ์จ์ ์ด๋ค.
- LoRA ์ฅ์
- ํ๋ฌ๊ทธ์ฒ๋ผ ์์ ๋ณ๋ก ๊ต์ฒด ๊ฐ๋ฅ
- ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์ฃผ๊ณ ๋ฐ์ ํ์ ์์ด, LoRA ๋ถ๋ถ๋ง ๊ณต์ ํด๋ ๋๋ค.
- ์ํํธ ํ๋กฌํํธ(Soft Prompting)
- ๋ณดํต ๋ชจ๋ธ์ โ์ง๋ฌธ์ฒ๋ผโ ํ ์คํธ๋ก ํ๋กฌํํธ๋ฅผ ์ฃผ์ง๋ง, ์ด ๋ฐฉ์์ ๊ทธ๋ฐ ํ๋กฌํํธ ๋์ ํ์ต ๊ฐ๋ฅํ ๋ฒกํฐ๋ฅผ ๋ฃ๋๋ค.
- ์ด ๋ฒกํฐ๋ 5๊ฐ ํ ํฐ ์ ๋๋ก ์์ฃผ ์๊ณ ๊ฐ๋ณ๊ฒ ํ์ต ๊ฐ๋ฅํ๋ค.
- ๋ค์ํ ์์ ์ ํผํฉํด์ ์ฒ๋ฆฌํ ์ ์๋ ์ฅ์ ๋ ์๋ค.
์ ๋ฆฌ ๋น๊ตํ
๋ฐฉ๋ฒ | ์ฑ๋ฅ | ๋น์ฉ/์์ | ํน์ง |
---|---|---|---|
์ ์ฒด ํ์ธํ๋ | ๐ฅ ์ต๊ณ | โ ๋งค์ฐ ๋์ | ์ ์ฒด ๋ชจ๋ธ ์์ |
LoRA | ๐ ์ข์ | โ ๋งค์ฐ ํจ์จ์ | ๊ต์ฒด ๊ฐ๋ฅ, QLoRA๋ก ๋ ๋น ๋ฆ |
Soft Prompting | ๐ ๊ด์ฐฎ์ | โ ์์ฃผ ํจ์จ์ | ๊ฐ๋จํ๊ณ ๋น ๋ฆ |
Using large language models
ํ๋กฌํํธ ์์ง๋์ด๋ง(prompt engineering)๊ณผ ์ํ๋ง ๊ธฐ๋ฒ(sampling techniques)์ LLM์ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค. ํ๋กฌํํธ ์์ง๋์ด๋ง์ด๋, ์ํ๋ ๊ฒฐ๊ณผ์ ๊ด๋ จ์ฑ ์๋ ์ถ๋ ฅ์ ์ป๊ธฐ ์ํด LLM์ ์ ๋ ฅํ๋ ํ ์คํธ(ํ๋กฌํํธ)๋ฅผ ์ค๊ณํ๊ณ ๋ค๋ฌ๋ ๊ณผ์ ์ ๋งํ๋ค. ์ํ๋ง ๊ธฐ๋ฒ์ ์ถ๋ ฅ ํ ํฐ์ ์ด๋ค ๋ฐฉ์์ผ๋ก ์ ํํ ์ง๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๊ฒฐ๊ณผ์ ์ ํ์ฑ, ์ฐฝ์์ฑ, ๋ค์์ฑ์ ์ํฅ์ ์ค๋ค.
Prompt engineering
๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋งค์ฐ ๊ฐ๋ ฅํ์ง๋ง, ๊ทธ ์ ์ฌ๋ ฅ์ ์์ ํ ๋ฐํํ๋ ค๋ฉด ์ ์ ํ ์๋ด๊ฐ ํ์ํ๋ค. ํ๋กฌํํธ ์์ง๋์ด๋ง์ LLM์ด ์ํ๋ ์ถ๋ ฅ์ ์์ฑํ๋๋ก ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ผ๋ก ์ ๋ํ๋ ์ค์ํ ๊ณผ์ ์ด๋ค. ์ด ์์ ์ ๋ชจ๋ธ์ด ์ฌ์ค์ ๊ธฐ๋ฐํ ์๋ต์ ํ๋๋ก ์ ๋ํ๊ฑฐ๋, ์ฐฝ์๋ ฅ์ ๋ฐํํ์ฌ ์ด์ผ๊ธฐ๋ ๋ ธ๋๋ฅผ ์ฐ๋๋ก ์ ๋ํ๋ ๊ฒ ๋ฑ์ ํฌํจํ ์ ์๋ค. ํ๋กฌํํธ ์์ง๋์ด๋ง ์์๋ก๋ ๋ค์๊ณผ ๊ฐ์ ๊ฒ๋ค์ด ์๋ค.
- LLM์๊ฒ ๋ช ํํ ์ง์๋ฅผ ์ ๊ณตํ๊ธฐ
- ์์๋ฅผ ์ ๊ณตํ๊ธฐ
- ํต์ฌ ํค์๋ ์ฌ์ฉํ๊ธฐ
- ์ค์ํ ์ ๋ณด๋ฅผ ๊ฐ์กฐํ ์ ์๋๋ก ํฌ๋งทํ
- ๋ฐฐ๊ฒฝ ์ ๋ณด๋ฅผ ์ถ๊ฐ๋ก ์ ๊ณตํ๊ธฐ
Few-shot prompting
- LLM์๊ฒ ์์ ์ค๋ช ๊ณผ ํจ๊ป, 3~5๊ฐ ์ ๋์ ์ ์ ํ๋ ์์๋ฅผ ํจ๊ป ์ ๊ณตํ๋ ๋ฐฉ์์ด๋ค.
- ์ ๋ฌํ ์์๋ค์ด LLM์ ์๋ต ๋ฐฉํฅ์ ์ ์ก์์ฃผ๋๋ก ๋์์ค๋ค.
Zero-shot prompting
- ์์ ์์ด LLM์๊ฒ ์ง์ ์ง์๋ง ์ฃผ๋ ๋ฐฉ์์ด๋ค.
- LLM์ ์์ ์ด ์ด๋ฏธ ํ์ตํ ์ง์์ ๋ฐํ์ผ๋ก ์ ๋ต์ ์์ธกํ๋ค.
- ์์๊ฐ ์๊ธฐ ๋๋ฌธ์ Zero-shot์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
- ๋ค๋ง, ํจ์ท๋ณด๋ค ์ ๋ขฐ๋๊ฐ ๋ฎ์ ์ ์๋ค.
Chain-of-thought prompting
- ๋ณต์กํ ์ถ๋ก ์ด ํ์ํ ์์ ์์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํ ๋ฐฉ์์ด๋ค.
- ๋จ์ํ ์ง๋ฌธ์ ๋์ง์ง ์๊ณ , ์ ์ฌํ ๋ฌธ์ ๋ฅผ ๋จ๊ณ๋ณ๋ก ํด๊ฒฐํ๋ ๋ฐฉ์์ ๋จผ์ ๋ณด์ฌ์ค๋ค.
- ๊ทธ๋ฌ๋ฉด LLM๋ ์ค์ค๋ก ์๊ฐ์ ํ๋ฆ(์ถ๋ก ๊ณผ์ )์ ๋ง๋ค๊ณ ๋ฌธ์ ๋ฅผ ์์ ๋จ๊ณ๋ก ๋๋ ์ ํด๊ฒฐํ ๋ค์, ์ต์ข ์ ๋ต์ ๋์ถํ๋ค.
Sampling Techniques and Parameters
๋์ํ ์ํ๋ง ๊ธฐ๋ฒ์ด ๋ชจ๋ธ์ด ์ํ์ค์์ ๋ค์ ํ ํฐ์ ์ ํํ๋ ๋ฐฉ์์ ๊ฒฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์๋ค. ์ด๋ค์ LLM์ ์ถ๋ ฅ์ ๋ํ ํ์ง, ์ฐฝ์์ฑ, ๋ค์์ฑ์ ์ ์ดํ๋ ๋ฐ ํ์์ ์ด๋ค. ๋ค์์ ๋ค์ํ ์ํ๋ง ๊ธฐ๋ฒ๊ณผ ๊ทธ์ ๋ฐ๋ฅธ ์ค์ํ ํ๋ผ๋ฏธํฐ๋ค์ ์ค๋ช ์ด๋ค.
- ๊ทธ๋ฆฌ๋ ์์น(Greedy search) : ๊ฐ ๋จ๊ณ์์ ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ํ ํฐ์ ์ ํํ๋ค. ๊ฐ์ฅ ๋จ์ํ ์ต์ ์ด์ง๋ง, ๋ฐ๋ณต์ ์ด๊ณ ์์ธก ๊ฐ๋ฅํ ์ถ๋ ฅ์ ์์ฑํ ์ ์๋ค.
- ๋๋ค ์ํ๋ง(Random sampling) : ์์ธก๋ ํ๋ฅ ๋ถํฌ์ ๋ฐ๋ผ ๋ค์ ํ ํฐ์ ์ ํํ๋ค. ๊ฐ ํ ํฐ์ ํด๋น ํ๋ฅ ์ ๋น๋กํ์ฌ ์ํ๋ง ๋๋ค. ๋ ๋๋๊ณ ์ฐฝ์์ ์ธ ํ ์คํธ๋ฅผ ์์ฑํ ์ ์์ง๋ง, ๋ง์ด ์ ๋๋ ์ถ๋ ฅ์ด ๋์ฌ ๊ฐ๋ฅ์ฑ๋ ์ปค์ง๋ค.
- ์จ๋ ์ํ๋ง(Temperature sampling) : ํ๋ฅ ๋ถํฌ๋ฅผ ์จ๋ ํ๋ผ๋ฏธํฐ๋ก ์กฐ์ ํ๋ค. ์จ๋๊ฐ ๋์์๋ก ๋ค์์ฑ์ด ์ฆ๊ฐํ๊ณ , ์จ๋๊ฐ ๋ฎ์์๋ก ํ๋ฅ ์ด ๋์ ํ ํฐ์ ๋ ์ ํธํ๊ฒ ๋๋ค.
- Top-K sampling : ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ K๊ฐ์ ํ ํฐ ์ค์์ ๋๋คํ๊ฒ ์ ํํ๋ค. K ๊ฐ์ ๋๋ค์ฑ์ ์ ๋๋ฅผ ์ ์ดํ๋ค.
- Top-P sampling : ๋์ ํ๋ฅ ์ด P๊ฐ ๋ ๋๊น์ง์ ๋์ ์ธ ํ ํฐ ์งํฉ์์ ์ํ๋งํ๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์ด ์์ ๊ฐ์ด ์์ ๋๋ ๋ ๋ง์ ํ๋ณด์์ ๋ค์์ฑ์ ํ๋ณดํ๊ณ , ์์ ๊ฐ์ด ์์ ๋๋ ํ๋ฅ ์ด ๋์ ์์์ ๋จ์ด์ ์ง์คํ ์ ์๋๋ก ํ๋ค.
- Best-of-N sampling : ์๋ก ๋ค๋ฅธ N๊ฐ์ ์๋ต์ ์์ฑํ๊ณ , ์ฌ์ ์ ์ ํด์ง ๊ธฐ์ค(์: ๋ณด์๋ชจ๋ธ ๋๋ ๋ ผ๋ฆฌ ์ผ๊ด์ฑ ๊ฒ์ฌ)์ ๋ฐ๋ผ ๊ฐ์ฅ ์ข์ ์๋ต์ ์ ํํ๋ค. ์ด ๋ฐฉ์์ ์งง์ ๋ฌธ์ฅ์ด๋ ๋ ผ๋ฆฌ์ ์ถ๋ก ์ด ์ค์ํ ์ํฉ์์ ํนํ ์ ์ฉํ๋ค.
Task-based Evaluation
LLM์ ๋ฑ์ฅ์ AI ์ ํ๋ฆฌ์ผ์ด์ ๊ฐ๋ฐ์ ์ฅ๋ฒฝ์ ๋ฎ์ท์ง๋ง, ์ต์ ๊ธฐ๋ฅ ์ ํ(MVP)์์ ์ค์ ์ด์ ํ๊ฒฝ(Production)์ผ๋ก ์ ํํ๋ ๊ณผ์ ์์๋ ํ๋กฌํํธ ์์ง๋์ด๋ง, ๋ชจ๋ธ ์ ํ, ์ฑ๋ฅ ๋ชจ๋ํฐ๋ง๊ณผ ๊ฐ์ ์ฌ๋ฌ ๋์ ๊ณผ์ ๊ฐ ๋ฐ์ํ๋ค. ์ด๋ฌํ ์ํฉ์ ์ ํด์ณ ๋๊ฐ๋ ค๋ฉด, ๊ธฐ๋ฅ์ฑ๊ณผ ์ฌ์ฉ์ ๊ฒฝํ์ ๊ฒ์ฆํ๊ณ , ์ ์ฌ์ ์ธ ๋ฌธ์ ๋ฅผ ์๋ณํ๋ฉฐ, ๋ชจ๋ธ์ ๊ธฐ๋ฅ์ ๋ํ ์ํต์ ๋๊ณ , ๊ฐ์ ๋ก๋๋งต์ ์๋ฆฝํ ์ ์๋ ๋ง์ถคํ ํ๊ฐ ํ๋ ์์ํฌ๊ฐ ํ์์ ์ด๋ค. ๋ง์ถคํ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ๊ตฌ์ถํ๊ธฐ ์ํด, ์ ํ๋ฆฌ์ผ์ด์ ๊ฐ๋ฐ์๋ ์์ฒด ํ๊ฐ ๋ฐ์ดํฐ, ๊ฐ๋ฐ ๋งฅ๋ฝ, โ์ข์ ์ฑ๋ฅโ์ ๋ํ ์ ์๋ฅผ ์ ๊ณตํด์ผ ํ๋ค.
-
ํ๊ฐ ๋ฐ์ดํฐ : LLM์ ๊ธฐ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ณต๊ฐ ๋ฆฌ๋๋ณด๋๋, ๋ณด๋ค ๋ง์ถคํ๋ ํ๊ฐ ๋ฐฉ์์ด ํ์ํ ์ ํ๋ฆฌ์ผ์ด์ ๊ฐ๋ฐ์์๊ฒ๋ ๋ถ์กฑํ ์ ์๋ค. ์ค์ ์ด์ ํธ๋ํฝ์ ์ต๋ํ ๋ฐ์ํ๋ ์ ์ฉ ํ๊ฐ ๋ฐ์ดํฐ์ ์ด ํ์ํ๋ค. ํ๋กํ ํ์ดํ ๋จ๊ณ์์๋ ์ฌ๋์ด ์ง์ ์ ๋ณํ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๊ฑฐ๋ ์ค์ ์ฌ์ฉ์ ์ํธ์์ฉ, ์ด์ ๋ก๊ทธ, ์๋๋ฆฌ์ค๋ฅผ ํ ์คํธํ๊ธฐ ์ํ ์ธ๊ณต ์์ฑ ๋ฐ์ดํฐ ๋ฑ์ผ๋ก ๊ณ์ํด์ ํ์ฅํด ๋๊ฐ ์ ์๋ค.
-
๊ฐ๋ฐ ๋งฅ๋ฝ : ํ๊ฐ๋ ๋จ์ํ ๋ชจ๋ธ์ ์ถ๋ ฅ๋ง ๋ณด๋ ๊ฒ์ด ์๋๋ผ, ๋ฐ์ดํฐ ์ฆ๊ฐ(์, RAG), ์์ด์ ํธ ๊ธฐ๋ฐ ์ํฌํ๋ก์ฐ ๋ฑ ์ ์ฒด ์์คํ ๊ตฌ์ฑ ์์๋ฅผ ํฌํจํด ๋ถ์๋์ด์ผ ํ๋ค. ์ด๋ฌํ ์ ๊ทผ๋ฒ์ ๋ชจ๋ ๊ตฌ์ฑ ์์๊ฐ ์ด๋ป๊ฒ ์ํธ์์ฉํ๋ฉฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ ์ฒด ์ฑ๋ฅ์ ๊ธฐ์ฌํ๋์ง๋ฅผ ์ดํดํ๋ ๋ฐ ๋์์ด ๋๋ค.
-
์ข์ ์ฑ๋ฅ์ ๋ํ ์ ์ : ์ ํต์ ์ธ ํ๊ฐ์งํ๋ ๋จ ํ๋์ ์ ๋ต๊ณผ์ ์ผ์น๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๊ฐํ๊ธฐ ๋๋ฌธ์, ์์์น ๋ชปํ ํด๋ต์ ๋ถ๋นํ๊ฒ ๋ฎ๊ฒ ํ๊ฐํ ์ ์๋ค. LLM์ ์ฌ์ฉํ ๋๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด ๋จ์ํ ์ ๋ต ์ ์ฌ๋ ๊ธฐ์ค์ ๋์ด์, ๋น์ฆ๋์ค ๋ชฉํ๋ฅผ ๋ฐ์ํ ๋ฐ์ดํฐ์ ์์ค์ ๊ธฐ์ค์ด๋ ์ ๋ ฅ๋ ์ฌ์ฉ์ ์ง์นจ์ ๋ฐ๋ผ ์ถ๋ ฅ์ ํต์ฌ ์์๋ฅผ ํฌ์ฐฉํ๋ ์ฑ์ ๊ธฐ์ค(๋ฃจ๋ธ๋ฆญ, rubrics)์ ์ค์ ํ๋ ๊ฒ์ด ๋ฐ๋์งํ๋ค.
์ ํ๋ฆฌ์ผ์ด์ ๊ฐ๋ฐ์๊ฐ LLM ์ฑ๋ฅ์ ํ๊ฐํ ์ ์๋ 3๊ฐ์ง ๋ฐฉ๋ฒ
- ์ ํต์ ์ธ ํ๊ฐ ๋ฐฉ๋ฒ : ์ ๋์ ์ธ ์งํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ถ๋ ฅ๊ณผ ์ด์์ ์ธ ์๋ต์ ๋น๊ตํ๋ค. ์ด ๋ฐฉ์์ ๊ฐ๊ด์ ์ธ ํต์ฐฐ์ ์ ๊ณตํ๋ ค ํ์ง๋ง, ์ฐฝ์์ ์ด๊ฑฐ๋ ์์ ๋ฐ์ ์ถ๋ ฅ์๋ ๋ถ๋ฆฌํ์ฌ ์ ๋ต์ด ์ฌ๋ฌ ๊ฐ์ธ ์์ฑ ์์ ์๋ ์ ํ์ ์ผ ์ ์๋ค.
- ์ธ๊ฐ ํ๊ฐ : ๊ฐ์ฅ ์ ๋ขฐํ ์ ์๋ ๋ฐฉ๋ฒ์ผ๋ก ์ฌ๊ฒจ์ง๋ฉฐ, ์ฌ๋์ ํ๋จ์ ๋ณต์กํ ์์ฑ ์ถ๋ ฅ์ ๋ํด ์ ๊ตํ ํ๊ฐ๋ฅผ ์ ๊ณตํ๋ค.
- LLM ๊ธฐ๋ฐ ์๋ ํ๊ฐ๊ธฐ : LLM ๊ธฐ๋ฐ ์๋ ํ๊ฐ๊ธฐ๋ ์ฌ๋์ ํ๋จ์ ๋ชจ๋ฐฉํ๋ ค ํ๋ฉฐ, ํ์ฅ์ฑ๊ณผ ํจ์จ์ฑ์ ๊ฐ์ถ ํ๊ฐ๋ฅผ ์ ๊ณตํ๋ค. ์ ํต์ ์ธ ๊ณ์ฐ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ๋ ๋ฌ๋ฆฌ, ์ฐธ์กฐ ๋ฐ์ดํฐ๊ฐ ์๋ ์๋ ์๋ํ ์ ์๋ค. ๊ธฐ๋ณธ์ ์ธ ์ค์ ์์๋ ์์
(task), ํ๊ฐ ๊ธฐ์ค(criteria), ํ๋ณด ์๋ต๋ค(candidate responses)์ ์ ๊ณตํ๊ณ (์ฐธ์กฐ ์๋ต์ด ์๋ค๋ฉด ํฌํจ), ์๋ ํ๊ฐ๊ธฐ๋ ์ด๋ฅผ ํ์ฉํด LLM ์ถ๋ ฅ์ ์์ฑํ๊ณ ๋ถ์ํ์ฌ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๋ค. ์๋ ํ๊ฐ๊ธฐ๋ ์ต์ข
์ถ๋ ฅ๋ฟ๋ง ์๋๋ผ, ๊ทธ ๊ฒฐ์ ์ ๋ํ ๊ทผ๊ฑฐ(reasoning)๋ ์ฌ์ฉ์์๊ฒ ์ค๋ช
ํ ์ ์๋ค.
- ์ผ๋ฐ์ ์ธ ์์ฑํ ๋ชจ๋ธ ์ธ์๋ ๋ณด์ ๋ชจ๋ธ์ด๋ ํ๋ณ ๋ชจ๋ธ๋ ํ๊ฐ๊ธฐ์ ์ฌ์ฉ๋ ์ ์๋ค. ๋ฌด์๋ณด๋ค๋ ๋ชจ๋ ์ธก์ ๋๊ตฌ์ ๋ง์ฐฌ๊ฐ์ง๋ก ์๋ ํ๊ฐ๊ธฐ๋ ๋ณด์ ์ด ํ์ํ๋ค.
- ๋ฉํ ํ๊ฐ : ์๋ ํ๊ฐ๊ธฐ ์ถ๋ ฅ๊ณผ ์ธ๊ฐ ํ๋จ์ ๋น๊ตํ๋ ๊ฒ. ํ๊ฐ๊ธฐ๊ฐ ์ํ๋ ์ ํธ๋์ ๋ง์ถฐ ์กฐ์ ๋์๋์ง๋ฅผ ํ์ธํ๋ ๊ณผ์ ์ด๋ค. ์ด ๋ณด์ ์ ๋ณดํต, ๋ชจ๋ธ ์ ํธ๋ ์ผ์น์จ์ด๋ ์๊ด ๊ณ์์ ๊ฐ์ ์งํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ํ๋๋ฉฐ, ํ๊ฐ ์์ ์ ๋ง์ถฐ ์กฐ์ ๋๋ค. ๋ฉํ ํ๊ฐ์์๋ ์๋ ํ๊ฐ๊ธฐ์ ์ ์ฌ์ ์ธ ํ๊ณ๋ ๊ณ ๋ คํ๋ ๊ฒ์ด ์ค์ํ๋ค.
Accelerating inference
(์ถ๋ก ๊ฐ์ํ) Kaplan ๋ฑ์ ์ฐ๊ตฌ์์ ์ฒ์ ์ ์๋ LLM์ ํ์ฅ ๋ฒ์น์ ์ค๋๋ ๊น์ง๋ ์ ํจํ๋ค. ์ธ์ด ๋ชจ๋ธ์ ํฌ๊ธฐ๋ ์ง์์ ์ผ๋ก ์ปค์ ธ์์ผ๋ฉฐ, ์ด๋ ์ต๊ทผ ๋ช ๋ ๊ฐ ๋ชจ๋ธ์ ํ์ง๊ณผ ์ ํ๋๊ฐ ํฌ๊ฒ ํฅ์๋ ์ฃผ์ ์์ธ์ด ๋์๋ค. ๊ทธ๋ฌ๋ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ฆ๊ฐํ ์๋ก ํ์ง์ ์ข์์ง์ง๋ง, ์ด๋ฅผ ์คํํ๋ ๋ฐ ํ์ํ ๊ณ์ฐ ์์๋ ํจ๊ป ์ฆ๊ฐํ๊ฒ ๋๋ค. ๊ทธ๋์ ๊ฐ๋ฐ์๋ค์ ๋ชจ๋ธ ์ฌ์ฉ์์๊ฒ ์ ๊ณตํ๋ ๋น์ฉ๊ณผ ์ง์ฐ ์๊ฐ์ ์ค์ด๊ธฐ ์ํด ์ฌ๋ฌ ๊ฐ์ง ํจ์จํ ๋ฐฉ์์ ์ฐ๊ตฌํด์๋ค. ๋ชจ๋ธ์ ์๋น์คํ ๋ ๋ฐ์ํ๋ ์๊ฐ, ๋น์ฉ, ์๋์ง๋ฅผ ๊ท ํ ์๊ฒ ๊ณ ๋ คํ๋ ๊ฒ์ ์ฑ๋ฅ-๋น์ฉ ๊ท ํ(cost-performance tradeoff)์ด๋ผ๊ณ ํ๋ฉฐ, ์ด๋ ์ฌ์ฉ ์ฌ๋ก์ ๋ฐ๋ผ ์กฐ์ ์ด ํ์ํ๋ค.
LLM์ด ์ฌ์ฉํ๋ ์ฃผ์ ์์ LLM์ด ์ฌ์ฉํ๋ ๋ ๊ฐ์ง ์ฃผ์ ์์์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ฉ๋ชจ๋ฆฌ
- ์ฐ์ฐ ๋ฅ๋ ฅ
์ถ๋ก ์๋๋ฅผ ๋์ด๊ธฐ ์ํ ๊ธฐ์ ์ ์ฃผ๋ก ์ด ๋ ๊ฐ์ง ์์์ ์ง์คํ๋ค. ๋ํ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ์ฅ์น ์ฌ์ด์ ์ฐ๊ฒฐ ์๋๋ ์ค์ํ๋ฐ, ์ด ๋ถ๋ถ์ ์ผ๋ฐ์ ์ผ๋ก ํ๋์จ์ด์ ์ ์ฝ์ ๋ฐ๋๋ค. LLM์ ์ง๋ ๋ช ๋ ์ฌ์ด ์๋ฐฑ๋ง์์ ์์ญ์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ก 1000๋ฐฐ ์ด์ ์ปค์ก์ผ๋ฉฐ, ํ๋ผ๋ฏธํฐ๊ฐ ๋ง์์ง์๋ก
- ๋ชจ๋ธ์ ์ ์ฅํ๋ ๋ฐ ํ์ํ ๋ฉ๋ชจ๋ฆฌ ํฌ๊ธฐ
- ์ถ๋ ฅ์ ์์ฑํ๋ ๋ฐ ํ์ํ ์ฐ์ฐ๋ ๋ชจ๋ ์ฆ๊ฐํ๊ฒ ๋์๋ค.
์ ์ถ๋ก ๊ฐ์ํ๊ฐ ์ค์ํ ๊น? LLM์ด ์ ์ ๋ ๋๊ท๋ชจ ์์คํ ์ด๋ ์ง์ฐ ์๊ฐ์ด ๋งค์ฐ ์งง์์ผ ํ๋ ์ํฉ์ ๋์ ๋๊ณ ์๊ธฐ ๋๋ฌธ์ ์ถ๋ก ์ฑ๋ฅ์ ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ ์ฐพ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํ ์ฐ๊ตฌ ์ฃผ์ ๊ฐ ๋์๊ณ , ๊ทธ์ ๋ฐ๋ผ ๋ง์ ๋ฐ์ ์ด ์ด๋ฃจ์ด์ง๊ณ ์์๋ค. ์ด์ ์ถ๋ก ์ ๊ฐ์ํํ๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ค๊ณผ ๊ทธ์ ๋ฐ๋ฅธ ๋ช ๊ฐ์ง ํธ๋ ์ด๋์คํ(์ฅ๋จ์ ๊ท ํ)๋ฅผ ์ดํด๋ณด๊ฒ ๋ ๊ฒ์ด๋ค.
Trade offs
๋ง์ ์ถ๋ก ์ต์ ํ ๊ธฐ๋ฒ๋ค์ ์ฌ๋ฌ ์์ ๊ฐ์ ๊ท ํ์ ์๊ตฌํ๋ค. ์ด๋ฌํ ๊ท ํ์ ์ํฉ์ ๋ฐ๋ผ ์กฐ์ ๊ฐ๋ฅํ๋ฉฐ, ์ฌ์ฉ ๋ชฉ์ ๊ณผ ์๊ตฌ์ฌํญ์ ๋ง์ถฐ ๋ง์ถคํ ์ ๊ทผ ๋ฐฉ์์ ์ค๊ณํ ์ ์๊ฒ ํด์ค๋ค. ์์ผ๋ก ๋ค๋ฃฐ ๋ค์ํ ์ต์ ํ ๊ธฐ๋ฒ๋ค๋ ์ด๋ฌํ ํธ๋ ์ด๋์คํ ์คํํธ๋ผ ์ด๋๊ฐ์ ์์นํด ์์ ๊ฒ์ด๋ค.
์๋ค ๋ค์ด,
- ์ง์ฐ ์๊ฐ(Latency) vs ํ์ง(Quality)
- ๋น์ฉ(Cost) vs ์ ํ๋(Accuracy) ๊ฐ์ ์์๋ค ์ฌ์ด์์ ํ ๊ฐ์ง๋ฅผ ์ฝ๊ฐ ํฌ๊ธฐํ๊ณ ๋ค๋ฅธ ์์๋ฅผ ๊ฐ์ ํ๋ ๋ฐฉ์์ด๋ค. ํ์ง๋ง ์ฌ๊ธฐ์ ์์ ํ ํ๋๋ฅผ ํฌ์ํ๋ค๋ ์๋ฏธ๋ ์๋๋ค. ๋จ์ง ์ด๋ค ์์์ ํ์ง์ด๋ ์๋, ๋น์ฉ์์ ์ฝ๊ฐ์ ์ ํ๋ฅผ ๊ฐ์ํ๋ฉด์ ๋ค๋ฅธ ์ค์ํ ์์์์ ํฐ ํฅ์์ ์ป๋๋ค๋ ์๋ฏธ์ด๋ค.
The Latency vs Cost Tradeoff
๋ชจ๋ธ ์ ํ๋์ ์์ฃผ ์์(ํน์ ๊ฑฐ์ ์๋) ์ ํ๋ฅผ ๊ฐ์ํ๋ฉด, ์ถ๋ก ์๋์ ๋น์ฉ์ ํฌ๊ฒ ๊ฐ์ ํ ์ ์๋ค. ์๋ฅผ ๋ค์ด
- ์์ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ์์ ์ ์ํํ๋ฉด ๊ณ์ฐ์ด ๋นจ๋ผ์ง๊ณ ๋น์ฉ์ด ์ค์ด๋ ๋ค.
- ์์ํ(Quantisation)๋ฅผ ํตํด ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์ ๋ฐ๋(precision)๋ฅผ ๋ฎ์ถ๋ฉด, ์ฐ์ฐ์ด ๋ ๋น ๋ฅด๊ณ ๋ฉ๋ชจ๋ฆฌ๋ ์ ๊ฒ ์ฌ์ฉ๋๋ค.
์ด ํธ๋ ์ด๋์คํ๋ฅผ ์ ๊ทผํ ๋ ์ค์ํ ์ ์ ๋ค์ ๋ ๊ฐ์ง๋ฅผ ๊ตฌ๋ถํ๋ ๊ฒ์ด๋ค.
- ์ด๋ก ์ ์ผ๋ก ํ์ง์ด ์ ํ๋ ๊ฐ๋ฅ์ฑ
- ์ค์ ๋ก ๊ทธ ๋ชจ๋ธ์ด ๊ทธ ์์ ์ ์ ์ํํ ์ ์๋๊ฐ(์ค์ฉ์ ์ธ ์ํ ๋ฅ๋ ฅ) ์ด ๋ ๊ฐ์ง๋ ์ฌ์ฉ ์ฌ๋ก(use case)์ ๋ฐ๋ผ ๋ค๋ฅด๋ฉฐ, ๋ง์ ๊ฒฝ์ฐ ์ค์ ํ์ง ์ ํ ์์ด๋ ์ ํ๋๋ฅผ ํฌ๊ฒ ํฅ์์ํฌ ์ ์๋ค.
์๋ฅผ ๋ค์ด, ๋ชจ๋ธ์๊ฒ ์ํค๋ ค๋ ์์ ์ด ๊ฐ๋จํ ์์ ์ด๋ผ๋ฉด ์์ ๋ชจ๋ธ์ด๋ ์์ํ๋ ๋ชจ๋ธ๋ ๊ทธ ์์ ์ ์ถฉ๋ถํ ์ ์ํํ ์ ์๋ค. ์ฆ, ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ด๊ฑฐ๋ ์ ๋ฐ๋๋ฅผ ๋ฎ์ท๋ค๊ณ ํด์ ๊ทธ ์์ ์ ๋ํด ์ฑ๋ฅ์ด ๋ฌด์กฐ๊ฑด ๋จ์ด์ง๋ ๊ฒ์ ์๋๋ค.
Output-approximating methods
Quantization(์์ํ)
LLM์ ๊ธฐ๋ณธ์ ์ผ๋ก ์ซ์ ํ๋ ฌ๋ค(๋ชจ๋ธ์ ๊ฐ์ค์น)๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์ถ๋ก ๊ณผ์ (inference)์์ ์ด ๊ฐ์ค์น๋ค์ ํ๋ ฌ ์ฐ์ฐ(matrix operation)์ ์ ์ฉํ์ฌ ์ซ์ ์ถ๋ ฅ๊ฐ๋ค(ํ์ฑํ๊ฐ, activations)์ ์์ฑํ๋ค. ์์ํ(Quantization)๋, ๊ฐ์ค์น์ ํ์ฑํ๊ฐ์ ์ ์ฅ, ์ ๋ฌ, ์ฐ์ฐํ ๋ ์ฌ์ฉํ๋ ์ซ์์ ์ ๋ฐ๋(precision)๋ฅผ ๋ฎ์ถ๋ ๊ณผ์ ์ด๋ค. ์ผ๋ฐ์ ์ผ๋ก ๊ฐ์ค์น์ ํ์ฑํ ๊ฐ์ 32๋นํธ ๋ถ๋์์์ (floating-point)์ซ์๋ก ํํ๋์ง๋ง, ์์ํ๋ฅผ ์ ์ฉํ๋ฉด ์ด๋ฅผ 8๋นํธ ๋๋ ์ฌ์ง์ด 4๋นํธ ์ ์(integer)๋ก ๋ฎ์ถ ์ ์๋ค.
์์ํ์ ์ฃผ์ ์ฅ์
- ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋ ๊ฐ์
- ๋ ํฐ ๋ชจ๋ธ์ ๊ฐ์ ํ๋์จ์ด์ ํ์ฌ ๊ฐ๋ฅ
- ์ฐ์ฐ ์ค ๋ฐ์ดํฐ ์ ๋ฌ ์๋ ํฅ์
- ํ ์นฉ ๋ด๋ถ ๋๋ ์ฌ๋ฌ ์นฉ ๊ฐ์ ๊ฐ์ค์น ๋ฐ ํ์ฑํ๊ฐ ์ ๋ฌ ์๋ ๊ฐ์
- ํต์ ์ง์ฐ(latency) ๊ฐ์ = ์ถ๋ก ์๋ ํฅ์
- ๋ ๋น ๋ฅธ ์ฐ์ ์ฐ์ฐ ๊ฐ๋ฅ
- ์ผ๋ถ ํ๋์จ์ด(GPU, TPU)๋ ๋ฎ์ ์ ๋ฐ๋์ ํ๋ ฌ ๊ณฑ ์ฐ์ฐ์ ๋ ๋น ๋ฅด๊ฒ ์ง์ํจ
ํ์ง(์ ํ๋)์ ๋ฏธ์น๋ ์ํฅ
- ์์ํ๋ก ์ธํ ํ์ง ์ ํ๋ ๊ฒฝ๋ฏธํ๊ฑฐ๋ ์์ ์์ ์ ์์
- ๋ง์ฝ ํ์ง ์ ํ๊ฐ ๋ฐ์ํ๋๋ผ๋, ๊ทธ ์์ค๋ณด๋ค ์ฑ๋ฅ ํฅ์์ด ํจ์ฌ ๋ ํด ์ ์์
๐ ์์:
Benoit Jacob ์ธ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด,
- MobileNet SSD์ FaceDetection ์์ ์์
- ์ ํ๋ 2% ๊ฐ์๋ก
- 2๋ฐฐ ์๋ ํฅ์์ ๋ฌ์ฑํ๋ค๊ณ ๋ณด๊ณ ํจ
์์ํ ์ ์ฉ ๋ฐฉ์
- ์ถ๋ก ์ ์ฉ ์์ํ
- ํ๋ จ์ 32๋นํธ๋ก ํ๊ณ , ์ถ๋ก ์์๋ง ์์ํ ์ ์ฉ
- ์์ํ ์ธ์ ํ๋ จ
- ํ๋ จ ์ค๋ถํฐ ์์ํ๋ฅผ ๋ชจ๋ธ์ด ๊ณ ๋ คํ๋๋ก ํ์ต
- ์์ํ๋ก ์ธํ ํ์ง ์ ํ๋ฅผ ์ผ๋ถ ํ๋ณตํ ์ ์์
์ต์ ์ ํ์ง/๋น์ฉ ๊ท ํ์ ์ํ ์กฐ์ ์์
- ๊ฐ์ค์น์ ํ์ฑํ๊ฐ์ ๋ํด ์๋ก ๋ค๋ฅธ ์ ๋ฐ๋ ์ ํ
- ํ
์์ ์์ํ๋ฅผ ์ ์ฉํ ๋ ์ธ๋ถํ ์์ค ์กฐ์
- ์ : ์ฑ๋ ๋จ์(channel-wise) ๋๋ ๊ทธ๋ฃน ๋จ์(group-wise)
์ฆ๋ฅ(Distillation)
์์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์์ ์ ์ํํ๋ ๊ฒ์ ๊ฐ์ฅ ํจ์จ์ ์ธ ์ถ๋ก ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋์ด๋ค. ํ์ง๋ง ์์ ๋ชจ๋ธ์ ๋ ํฐ ๋ชจ๋ธ์ ๋นํด ํ์ง ์ ํ(regression)๊ฐ ํฌ๊ฒ ๋ํ๋ ์ ์๋ค. ์ฆ๋ฅ(Distillation)๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ผ๋ จ์ ํ๋ จ ๊ธฐ๋ฒ์ผ๋ก ๋ ํฐ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์์ ๋ชจ๋ธ์ ํ์ง์ ํฅ์์ํค๋ ๊ฒ์ด ๋ชฉ์ ์ด๋ค. ์ด ๋ฐฉ์์ด ํจ๊ณผ์ ์ธ ์ด์ ๋ ๊ฐ์ ๋ฐ์ดํฐ๋ก ํ๋ จํ๋๋ผ๋, ํฐ ๋ชจ๋ธ์ด ์์ ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ ์ด์ ๋ ์ฃผ๋ก ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์ฉ๋๊ณผ ํ์ต ๋ฐฉ์์ ์๋ค. ํ๋ จ ๋ฐ์ดํฐ์ ์ ์์ด ๋ง์์ง์๋ก, ์ด๋ฌํ ์ฑ๋ฅ ์ฐจ์ด๋ ๊ณ์ํด์ ๋ฒ์ด์ง๋ ๊ฒฝํฅ์ด ์์ผ๋ฉฐ, ์ด๋ ์๋ ๊ทธ๋ฆผ์์ ๋ณด์ฌ์ฃผ๋ ๋ฐ์ ๊ฐ๋ค.
๋ฐ์ดํฐ๊ฐ ์ ์ ๊ฒฝ์ฐ์๋?
๋๋ผ์ด ์ ์ ํ๋ จ ๋ฐ์ดํฐ๊ฐ ์ ์ ๋์กฐ์ฐจ๋, ํฐ ๋ชจ๋ธ์ ๊ฐ์ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ ์์ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ์ด ์ฌ์ค์ ์ฆ๋ฅ์ ์ฒซ ๋ฒ์งธ ๋ฐฉ์์ธ ๋ฐ์ดํฐ ์ฆ๋ฅ ๋๋ ๋ชจ๋ธ ์์ถ ๊ธฐ๋ฒ์ผ๋ก ์ด์ด์ง๋ค.
๋ฐฉ๋ฒ(Method)
- ๋ณด์ ํ ๋ฐ์ดํฐ๋ก ํ๋ จ๋ ํฐ ๋ชจ๋ธ์ ์ฌ์ฉํด ์ถ๊ฐ์ ์ธ ์ธ๊ณต ๋ฐ์ดํฐ(ํฉ์ฑ ๋ฐ์ดํฐ, synthetic data)๋ฅผ ์์ฑํ๋ค.
- ์ด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์์ ๋ชจ๋ธ์ ํ๋ จํ๋ฉด ์๋ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ๋ จํ์ ๋๋ณด๋ค ์ฑ๋ฅ์ด ๋ ํฅ์๋๋ค.
๋จ, ํฉ์ฑ ๋ฐ์ดํฐ๋ ๋ฐ๋์ ๊ณ ํ์ง์ด์ด์ผ ํ๋ฉฐ, ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ ์คํ๋ ค ๋ถ์ ์ ์ธ ํจ๊ณผ๋ฅผ ์ด๋ํ ์ ์์ผ๋ฏ๋ก ์ฃผ์๊ฐ ํ์ํ๋ค.
๋ ์ ๋ฐํ ์์ค์ ์ฆ๋ฅ ๊ธฐ๋ฒ๋ค
๋จ์ํ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๊ฒ ์ธ์๋ ๋ ์ธ๋ฐํ ์์ค์์ Teacher์ Student๋ฅผ ๊ฐ๊น์์ง๊ฒ ํ๋ ๊ธฐ๋ฒ๋ค๋ ์กด์ฌํ๋ค.
์ง์ ๋ถ๋ฅ(Knowledge Distillation)
- Student ๋ชจ๋ธ์ ์ถ๋ ฅ ํ ํฐ ๋ถํฌ๋ฅผ Teacher ๋ชจ๋ธ์ ์ถ๋ ฅ ๋ถํฌ์ ๋ง์ถ๋๋ก ํ์ตํ๋ ๋ฐฉ์์ด๋ค.
- ์ด ๋ฐฉ๋ฒ์ ๋ฐ์ดํฐ ์ฆ๋ฅ๋ณด๋ค ๋ ์ ์ ๋ฐ์ดํฐ๋ก๋ ํจ์จ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์๋ค.
์จ-ํด๋ฆฌ์ ์ฆ๋ฅ(On-policy Distillation)
- ๊ฐํํ์ต ํ๊ฒฝ์์ Student ๋ชจ๋ธ์ด ์์ฑํ ๊ฐ ์ํ์ค์ ๋ํด Teacher ๋ชจ๋ธ์ด ํผ๋๋ฐฑ์ ์ ๊ณตํ๋ฉฐ ํ์ต์ ๋๋ ๋ฐฉ์์ด๋ค.
Output-preserving methods
Flash Attention
Transformer ์ํคํ ์ฒ์์ ์ฃผ๋ก ์ฌ์ฉ๋๋ Scaled Dot-product Attention์ ์ ๋ ฅ ๊ธธ์ด์ ๋ํด ๋ณต์ก๋๊ฐ ์ด์ฐจ ํจ์์ธ ์ฐ์ฐ์ด๋ค. ๋ฐ๋ผ์ Self-Attention ๊ณ์ฐ์ ์ต์ ํํ๋ฉด ์ง์ฐ ์๊ฐ๊ณผ ๋น์ฉ ์ธก๋ฉด์์ ํฐ ์ด์ ์ ์ป์ ์ ์๋ค. Flash attention์ Tri Dao ๋ฑ์ด ์ ์ํ ๊ธฐ๋ฒ์ผ๋ก ์ดํ ์ ์ฐ์ฐ์ IO(์ ์ถ๋ ฅ) ์นํ์ ์ผ๋ก ๋ง๋ค์ด ์ต์ ํํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ๋๋ฆฐ ๊ณ ๋์ญํญ ๋ฉ๋ชจ๋ฆฌ(HBM)์ ๋น ๋ฅธ ๋ฉ๋ชจ๋ฆฌ(SRAM/VEM)๊ฐ์ ๋ฐ์ดํฐ ์ด๋์ ์ต์ํํ๋ ๋ฐ ์ค์ ์ ๋๋ค. ์ดํ ์ ์ ๊ณ์ฐํ ๋, ์ฐ์ฐ ์์๋ฅผ ๋ณ๊ฒฝํ๊ณ ์ฌ๋ฌ ์ธต์ ํ ๋ฒ์ ์ฒ๋ฆฌํ์ฌ ๋น ๋ฅธ ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต์ ์ต๋ํ ํจ์จ์ ์ผ๋ก ํ๋ํ ์ ์๊ฒ ํ๋ค.
Flash Attention์ ๊ทผ์ฌ ์๊ณ ๋ฆฌ์ฆ์ด ์๋๊ณ ์ ํํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์ฆ ์ดํ ์ ๊ณ์ฐ์ ์ซ์ ์ถ๋ ฅ๊ฐ์ด ๊ธฐ์กด๊ณผ ๋์ผํ๊ฒ ์ ์งํ๋ฉด์ ๋น ๋ฅด๊ฒ ๊ณ์ฐ๋ ์ ์๋๋ก ์ต์ ํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
Prefix Caching
LLM ์ถ๋ก ๊ณผ์ ์์ ๊ฐ์ฅ ์ฐ์ฐ๋์ด ๋ง๊ณ ๋๋ฆฐ ์์ ์ค ํ๋๋ ์ ๋ ฅ์ ๋ํด ์ดํ ์ ํค(key)์ ๋ฒจ๋ฅ(Value)๋ฅผ ๊ณ์ฐํ๋ ์์ ์ด๋ค. ์ด ์์ ์ ๋ณดํต ํ๋ฆฌํ(prefill)์ด๋ผ๊ณ ๋ถ๋ฆฐ๋ค. ํ๋ฆฌํ์ ์ต์ข ๊ฒฐ๊ณผ๋ฌผ์ KV Chache์ธ๋ฐ, ์ด๋ ์ ๋ ฅ ์ ์ฒด์ ๋ํด ๊ฐ ํธ๋์คํฌ๋จธ ์ธต๋ง๋ค์ ์ดํ ์ ํค/๋ฒจ๋ฅ ๊ฐ์ ์ ์ฅํ ๊ฒ์ด๋ค. ์ด KV Chache๋ ๋์ฝ๋ฉ ๋จ๊ณ(์ถ๋ ฅ ํ ํฐ์ ์์ฑํ๋ ๊ณผ์ )์์ ๋งค์ฐ ์ค์ํ๋ค. ์ด ์บ์ ๋๋ถ์ ์คํ ๋ฆฌ๊ทธ๋ ์๋ธ(autoregressive) ๋์ฝ๋ฉ ์ค ์ ๋ ฅ์ ๋ํ ์ดํ ์ ์ ์๋ฅผ ๋งค๋ฒ ๋ค์ ๊ณ์ฐํ์ง ์์๋ ๋๊ธฐ ๋๋ฌธ์ด๋ค.
ํ๋ฆฌํฝ์ค ์บ์ฑ์ด๋? Prefix Chaching์ ์ด์ ์ ์์ฑํ KV ์บ์๋ฅผ ๋ค์ ์ถ๋ก ์์ฒญ์์๋ ์ฌ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์ด๋ค. ์ด๋ ๊ฒ ํ๋ฉด ํ๋ฆฌํ ์ฐ์ฐ ์๊ฐ๊ณผ ๋น์ฉ์ ์ค์ผ ์ ์๋ค. ์ด์ :
- Self-Attention ๋งค์ปค๋์ฆ์์๋ ํ ๋ฅธ์ด ์๊ธฐ ์์ ๋์จ ํ ํฐ์๋ง ์ฃผ์๋ฅผ ์ง์คํ๊ธฐ ๋๋ฌธ์, ์ด์ ์ ๋ ฅ์ด ๋ณํ์ง ์์๋ค๋ฉด ๊ทธ ๊ณ์ฐ ๊ฒฐ๊ณผ(KV Cache)๋ฅผ ์ฌ์ฌ์ฉํ ์ ์๋ค. ์๋ฅผ ๋ค์ด, ์๋ก์ด ์ ๋ ฅ์ด ๊ธฐ์กด ์ ๋ ฅ์ ๋ค์ ๋ง๋ถ๋ ํ์์ด๋ผ๋ฉด, ๊ธฐ์กด ์ ๋ ฅ์ ๋ํ ํ๋ฆฌํ ์ฐ์ฐ์ ์๋ตํ ์ ์๋ค.
์์ ๊ทธ๋ฆผ์ ๊ธฐ๋ฐ์ผ๋ก ์ค๋ช ํ๋ฉด,
- ์ฒซ ๋ฒ์งธ ์ฌ์ฉ์ ์์ฒญ : ์ ์ฒด ๋ฌธ์๋ฅผ ํ๋ฆฌํํด์ผ ํ๋ฏ๋ก 500ms ์์
- KV ์บ์ ์ ์ฅ : ์์ฑ๋ ์บ์๋ ์ ์ฅ๋จ(๋ฉ๋ชจ๋ฆฌ ๋๋ ๋์คํฌ)
- ๋ ๋ฒ์งธ ์ฌ์ฉ์ ์์ฒญ : ๋ฌธ์๋ ๊ทธ๋๋ก์ด๊ณ , ์ง๋ฌธ๋ง ๋ฐ๋์์ผ๋ฏ๋ก, ๊ธฐ์กด KV ์บ์๋ฅผ ๋ถ๋ฌ์ ๋ฌธ์์ ๋ํ ์ฌ๊ณ์ฐ์ ์๋ตํจ โ ํฐ ์ฐ์ฐ ์๊ฐ๊ณผ ์ง์ฐ ์๊ฐ ์ ๊ฐ
ํ๋ฆฌํฝ์ค ์บ์ ์ฌ์ฉ ์ ์ฃผ์์ฌํญ
- ์ ๋ ฅ ๊ตฌ์กฐ๊ฐ ํ๋ฆฌํฝ์ค ์บ์ฑ ์นํ์ ์ด์ด์ผ ํ๋ค.
- ์๋ฅผ ๋ค์ด, ๋งค๋ฒ ์์ฒญ ์์ ๋ถ๋ถ์ ์๋ก์ด ํ์์คํฌํ๋ฅผ ๋ถ์ด๋ฉด, ๋งค๋ฒ ํ๋ฆฌํฝ์ค๊ฐ ๋ฐ๋๊ธฐ ๋๋ฌธ์ ์บ์๊ฐ ๋ฌดํจํ๋๋ค.
Speculative Decoding
LLM ์ถ๋ก ๊ณผ์ ์ ๋ ๋จ๊ณ๋ก ๋๋๋ค.
- ํ๋ฆฌํ(prefill)
- ์ฌ๋ฌ ํ ํฐ์ ๋ํด ๋๊ท๋ชจ ํ๋ ฌ ์ฐ์ฐ์ด ๋ณ๋ ฌ๋ก ์ํ๋๋ฉฐ
- ๊ณ์ฐ ์ฑ๋ฅ์ ์ํด ์ ํ๋๋ค.
- ๋์ฝ๋(decode)
- ํ ํฐ์ ํ๋์ฉ ์์ฐจ์ ์ผ๋ก ์์ฑํด์ผ ํ๋ฏ๋ก,
- ๋ฉ๋ชจ๋ฆฌ ์ฑ๋ฅ์ ๋ ํฐ ์ํฅ์ ๋ฐ๋๋ค.
๋์ฝ๋ฉ์ ํ ํฐ์ด ํ๋์ฉ ์์๋๋ก ์์ฑ๋์ด์ผ ํ๋ฏ๋ก ๋ณ๋ ฌ๋ก ์๋๋ฅผ ๋์ด๊ธฐ๊ฐ ์ด๋ ต๋ค.(์๊ธฐ ์์ ์์ ๋์จ ํ ํฐ๋ค๋ง์ ์ฐธ์กฐํ๋ Self-attention ๊ตฌ์กฐ ๋๋ฌธ)
Batching and Parallelization
์ง๊ธ๊น์ง ์๊ฐํ ์ต์ ํ ๊ธฐ๋ฒ๋ค์ ๋๋ถ๋ถ ๋จธ์ ๋ฌ๋, ํนํ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ์ ํนํ๋ ๊ฒ์ด์๋ค. ํ์ง๋ง ์ผ๋ฐ ์ํํธ์จ์ด ์์คํ ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ฒ๋ฆฌ๋๊ณผ ์ง์ฐ ์๊ฐ์ ์ค์ด๊ธฐ ์ํด ๋ค์ ๋ ๊ฐ์ง ๋ฐฉ์์ ์กฐํฉ์ ํ์ฉํ ์ ์๋ค.
- ๊ณ์ฐ๋์ด ์ ์ ์์ ๋ค์ ๋ฌถ์ด(Batch) ์ฒ๋ฆฌํ์ฌ ๋์ผํ ํ๋์จ์ด์์ ์ฌ๋ฌ ์์ฒญ์ ๋์์ ์ฒ๋ฆฌํจ์ผ๋ก์จ ๋จ๋ ์ฐ์ฐ ์์์ ์ ํ์ฉํ๋ ๊ฒ
- ๊ณ์ฐ๋์ด ๋ง์ ์์ ์ ๋๋ ์ ๋ณ๋ ฌ ์ฒ๋ฆฌํ๊ณ ์ฌ๋ฌ ํ๋์จ์ด ์ธ์คํด์ค์ ๋ถ์ฐํ์ฌ ๋ ๋ง์ ์ฐ์ฐ ๋ฅ๋ ฅ์ ํ๋ณดํ๊ณ ๋ ์งง์ ์ง์ฐ ์๊ฐ์ ํ๋ณด
LLM์์์ ๋ฐฐ์น ์ฒ๋ฆฌ
- LLM์์๋ ํนํ ๋์ฝ๋ฉ ๋จ๊ณ์์ ๋ฐฐ์น ์ฒ๋ฆฌ๊ฐ ๋งค์ฐ ํจ๊ณผ์ ์ด๋ค.
- ๋์ฝ๋๋ ๊ณ์ฐ ์์์ ์ํ ๋ณ๋ชฉ์ด ์ ๊ธฐ ๋๋ฌธ์ ์ฌ๋ฌ ์์ฒญ์ ๋์์ ๋ฌถ์ด ์ฒ๋ฆฌํ ์ ์๋ ์ฌ์ง๊ฐ ๋ง๋ค.
- ๋ค๋ง, ์ฃผ์ํด์ผ ํ ์ ์:
- ๋ฐฐ์น ์ฒ๋ฆฌ๊ฐ ๋จ๋ ์ฐ์ฐ ์์์ ์ ํ์ฉํ๋ ๋ฐฉ์์ผ๋ก ์ด๋ค์ ธ์ผ ํ๋ค๋ ๊ฒ
- GPU๋ TPU ๊ฐ์ ๊ฐ์๊ธฐ์์ ์ด๋ฅผ ๊ตฌํํ ์ ์์
- ๋คํค๋์ด์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ํฐ ์์ ์ด๊ธฐ ๋๋ฌธ์ ๋๋ฌด ๋ง์ ์์ฒญ์ ๋ฐฐ์นํ๋ฉด ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์
- ์์ฆ์ ๊ณ ์ฒ๋ฆฌ๋ LLM ์ถ๋ก ์์คํ ์์๋ ๋ฐฐ์น ์ฒ๋ฆฌ๊ฐ ํต์ฌ ๊ตฌ์ฑ ์์๋ก ์๋ฆฌ ์ก๊ณ ์๋ค.