Created at : 2025-04-10 15:49
Auther: Soo.Y


๐Ÿ“๋ฉ”๋ชจ

Day1 ์ž๋ฃŒ

Large language models

๊ฑฐ๋Œ€์–ธ์–ด๋ชจ๋ธ์€ ๋‹จ์–ด ์Šคํ€€์Šค์˜ ํ™•๋ฅ ์„ ์˜ˆ์ธกํ•œ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ํ…์ŠคํŠธ์˜ ์ ‘๋‘์‚ฌ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ์–ธ์–ด ๋ชจ๋ธ์€ ํ›„์† ๋‹จ์–ด์— ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ๋ฏธ๊ตญ์—์„œ ๊ฐ€์žฅ ์œ ๋ช…ํ•œ ๋„์‹œ๋Š”โ€ฆโ€ ์ด๋ผ๋Š” ์ ‘๋‘์‚ฌ๊ฐ€ ์ฃผ์–ด์ง„ ์–ธ์–ด ๋ชจ๋ธ์€ โ€œ๋‰ด์š•โ€ ๋ฐ โ€œ๋กœ์Šค์•ค์ ค๋ ˆ์Šคโ€๋ผ๋Š” ๋‹จ์–ด์— ๋†’์€ ํ™•๋ฅ ์ด ๋‚˜ํƒ€๋‚˜๊ณ  โ€œ์‚ฌ๊ณผโ€, โ€œ๋…ธํŠธ๋ถโ€์™€ ๊ฐ™์€ ๋‹จ์–ด๋„ค๋А ๋‚ฎ์€ ํ™•๋ฅ ์„ ์˜ˆ์ธกํ•œ๋‹ค. Transformer๊ฐ€ ์—ฐ๊ตฌ๋˜๊ธฐ ์ „์—๋Š” ์ˆœํ•œ ์‹ ๊ฒฝ๋ง(RNN)์ด ์‹œํ€€์Šค ๋ชจ๋ธ๋ง์— ๋Œ€ํ•œ ์ธ๊ธฐ ์žˆ๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์ด์—ˆ์Šต๋‹ˆ๋‹ค. RNN์€ ์ž…๋ ฅ ๋ฐ ์ถœ๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค. ์ด์ „ ์€๋‹‰ ์ƒํƒœ์™€ ํ˜„์žฌ ์ž…๋ ฅ์— ๋”ฐ๋ผ ์€๋‹‰ ์ƒํƒœ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. RNN ๋‹จ์ ์œผ๋กœ ์ˆœ์ฐจ์ ์ธ ๊ณ„์‚ฐ์œผ๋กœ ์ธํ•ด ๋ณ‘๋ ฌํ™”ํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ํŠธ๋žœ์Šคํฌ๋จธ(Transformer)๋Š” self-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋•๋ถ„์— ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ๋ณ‘๋ ฌ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์‹ ๊ฒฝ๋ง์˜ ํ•œ ์œ ํ˜•์ด๋‹ค. ๋‹ค๋งŒ ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ปจํ…์ŠคํŠธ ํฌ๊ธฐ๋ฅผ ์ œํ•œ์ ์œผ๋กœ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š” ๋‹จ์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ๋ฐ˜๋ฉด์— RNN์€ ์ด๋ก ์ ์œผ๋กœ ๋ฌดํ•œํ•œ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์ง€๋งŒ, ๊ทธ๋ž˜๋””์–ธํŠธ ์†Œ์‹ค๋กœ ์ธํ•ด ํ™œ์šฉํ•˜๋Š”๋ฐ ์–ด๋ ค์›€์ด ๋งŽ๋‹ค. ๊ทธ๋ž˜์„œ ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ตœ๊ทผ ๋ช‡ ๋…„ ๋™์•ˆ ๊ฑฐ๋Œ€์–ธ์–ด๋ชจ๋ธ์—์„œ ์ฑ„ํƒ๋˜๊ณ  ์žˆ๋‹ค.

Transformer

Transformer architecture์€ 2017๋…„์— ๋ฒˆ์—ญ ๋ชจ๋ธ ์‚ฌ์šฉ์„ ์œ„ํ•ด ๊ตฌ๊ธ€์—์„œ ๊ฐœ๋ฐœ๋˜์—ˆ๋‹ค. ์ดˆ๊ธฐ ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜๋Š” ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”์˜ 2 ๋ถ€๋ถ„์œผ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ๋‹ค. ์ธ์ฝ”๋”๋Š” ์ž…๋ ฅ ํ…์ŠคํŠธ(์˜ˆ ํ”„๋ž‘์Šค์–ด ๋ฌธ์žฅ)๋ฅผ ๋ณ€ํ™˜ํ•˜๊ณ  ๋ณ€ํ™˜๋œ ๊ฐ’์ด ๋””์ฝ”๋”์— ์ „๋‹ฌ๋œ๋‹ค. ๋””์ฝ”๋”๋Š” ์ด ํ‘œํ˜„์„ ์‚ฌ์šฉํ•˜์—ฌ ์ถœ๋ ฅ ํ…์ŠคํŠธ(์˜ˆ: ๋ฒˆ์—ญ๋œ ๋ฌธ์žฅ)๋ฅผ ์ž๊ธฐ ํšŒ๊ท€์ ์œผ๋กœ ์ƒ์„ฑํ•œ๋‹ค. ์ „์ฒด์ ์ธ ๊ตฌ์กฐ๋Š” ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™๋‹ค.

ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์—ฌ๋Ÿฌ ๊ณ„์ธต์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์‹ ๊ฒฝ๋ง์˜ ๊ณ„์ธต์€ ๋ฐ์ดํ„ฐ์— ํŠน์ • ๋ณ€ํ™˜์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์ง‘ํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด Multi-Head Attention, Add & Norm, Feed-Forward, Linear, Softmax ๋“ฑ ์—ฌ๋Ÿฌ ๊ณ„์ธต์ด ํฌํ•จ๋˜์–ด ์žˆ๋‹ค. ๊ณ„์ธต์€ ์ž…๋ ฅ, ์ˆจ๊ฒจ์ง„ ๋ฐ ์ถœ๋ ฅ ๊ณ„์ธต์œผ๋กœ ์„ธ๋ถ„ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค.

Input preparation and embedding

ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ์œ„ํ•œ ์–ธ์–ด ์ž…๋ ฅ์„ ์ค€๋น„ํ•˜๊ธฐ ์œ„ํ•ด์„œ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ํ† ํฐ์œผ๋กœ ๋ณ€ํ™˜ํ•œ ๋‹ค์Œ ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. ์ž…๋ ฅ ์ž…๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์—๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹จ๊ณ„๊ฐ€ ํฌํ•จ๋œ๋‹ค.

  1. ์ •๊ทœํ™”(์„ ํƒ์‚ฌํ•ญ) : ๋ถˆํ•„์š”ํ•œ ๊ณต๋ฐฑ, ์•…์„ผํŠธ ๋“ฑ์„ ์ œ๊ฑฐํ•˜์—ฌ ํ…์ŠคํŠธ๋ฅผ ํ‘œ์ค€ํ™”ํ•œ๋‹ค.
  2. ํ† ํฐํ™” : ๋ฌธ์žฅ์„ ๋‹จ์–ด ๋˜๋Š” ์„œ๋ธŒ์›“๋“œ๋กœ ๋‚˜๋ˆ„๊ณ  ์–ดํœ˜์—์„œ ์ •์ˆ˜ ํ† ํฐ ID๋กœ ๋งคํŒ…ํ•œ๋‹ค.
  3. ์ž„๋ฒ ๋”ฉ : ๊ฐ ํ† ํฐ ID๋ฅผ ํ•ด๋‹น ๊ณ ์ฐจ์› ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ ๋ฃฉ์—… ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฒกํ„ฐ๋Š” ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ํ•™์Šต๋œ๋‹ค.
  4. ์œ„์น˜ ์ธ์ฝ”๋”ฉ : ์Šคํ€€์Šค์—์„œ ๊ฐ ํ† ํฐ์˜ ์œ„์น˜์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ถ”๊ฐ€ํ•œ๋‹ค.

Multi-head attention

์ž…๋ ฅ ํ† ํฐ์„ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•œ ํ›„, ์ด ์ž„๋ฒ ๋”ฉ์„ ๋‹ค์ค‘ ํ—ค๋“œ ์–ดํ…์…˜ ๋ชจ๋“ˆ์— ์ž…๋ ฅํ•œ๋‹ค. self-attention์€ ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ์ค‘์š”ํ•œ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด๋‹ค. ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ํŠน์ • ๋ถ€๋ถ„์— ์ง‘์ค‘ํ•˜๊ณ , ๊ธฐ์กด์˜ RNN๋ณด๋‹ค ์Šคํ€€์Šค ๋‚ด์˜ ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ์„ ๋” ํšจ๊ณผ์ ์œผ๋กœ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋‹ค.

Understanding self-attention

๋‹ค์Œ ๋ฌธ์žฅ์„ ์˜ˆ์‹œ๋กœ ์‚ฌ์šฉํ•ด๋ณด์ž. โ€œThe tiger jumped out of a tree to get a drink because it was thirsty.โ€ self-attention์€ ๋ฌธ์žฅ์—์„œ ๋‹จ์–ด์™€ ๊ตฌ์ ˆ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๋Š”๋ฐ ๋„์›€์ด ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ด ๋ฌธ์žฅ์—์„œ โ€œtigerโ€์™€ โ€œitโ€์€ ๋™์ผํ•œ ๊ฐ์ฒด์ด๋ฏ€๋กœ ์ด ๋‘ ๋‹จ์–ด๋Š” ๊ฐ•ํ•˜๊ฒŒ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค. self-attention๋Š” ๋‹ค์Œ ๋‹จ๊ณ„๋ฅผ ํ†ตํ•ด ์ด๋ฅผ ๋‹ฌ์„ฑํ•œ๋‹ค.

  1. ์ฟผ๋ฆฌ(Query), ํ‚ค(Key), ๊ฐ’(Value)์„ ์ƒ์„ฑํ•œ๋‹ค. ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ ๊ฐ๊ฐ์€ ํ•™์Šต๋œ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ 3๊ฐœ(Wq, Wk, Wv)์— ๊ณฑํ•˜์—ฌ Q, K, V ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ์ด๋“ค์€ ๊ฐ ๋‹จ์–ด์˜ ์ „๋ฌธํ™”๋œ ํ‘œํ˜„๊ณผ ์œ ์‚ฌํ•˜๋‹ค.

    1. ์ฟผ๋ฆฌ : ์ฟผ๋ฆฌ ๋ฒกํ„ฐ๋Š” ๋ชจ๋ธ์ด โ€œ์–ด๋–ค ๋‹ค๋ฅธ ๋‹จ์–ด๋“ค์ด ์ €์—๊ฒŒ ๊ด€๋ จ์ด ์žˆ์Šต๋‹ˆ๊นŒ?โ€๋ผ๋Š” ์งˆ๋ฌธ์„ ๋˜์ง€๋Š”๋ฐ ๋„์›€์ด ๋œ๋‹ค.
    2. ํ‚ค : ํ‚ค ๋ฒกํ„ฐ๋Š” ๋ชจ๋ธ์ด ์Šคํ€€์Šค์—์„œ ๋‹จ์–ด๊ฐ€ ๋‹ค๋ฅธ ๋‹จ์–ด์™€ ์–ด๋–ป๊ฒŒ ๊ด€๋ จ๋  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹๋ณ„ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š” ๋ ˆ์ด๋ธ”๊ณผ ๊ฐ™๋‹ค.
    3. ๊ฐ’ : ๊ฐ’ ๋ฒกํ„ฐ๋Š” ์‹ค์ œ ๋‹จ์–ด ๋‚ด์šฉ ์ •๋ณด๋ฅผ ๋ณด์œ  ํ•œ๋‹ค.
  2. ์ ์ˆ˜ ๊ณ„์‚ฐ : ์ ์ˆ˜๋Š” ๊ฐ ๋‹จ์–ด๊ฐ€ ๋‹ค๋ฅธ ๋‹จ์–ด์— ์–ผ๋งˆ๋‚˜ โ€˜์ฃผ์˜โ€™ํ•ด์•ผ ํ•˜๋Š”์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด ๊ณ„์‚ฐ๋œ๋‹ค. ์ด๋Š” ํ•œ ๋‹จ์–ด์˜ ์ฟผ๋ฆฌ ๋ฒกํ„ฐ๋ฅผ ์‹œํ€€์Šค์˜ ๋ชจ๋“  ๋‹จ์–ด์˜ ํ‚ค ๋ฒกํ„ฐ์™€ ๋‚ด์ ํ•จ์œผ๋กœ์จ ์ˆ˜ํ–‰๋œ๋‹ค.

  3. ์ •๊ทœํ™” : ์•ˆ์ •์„ฑ์„ ์œ„ํ•ด ํ‚ค ๋ฒกํ„ฐ ์ฐจ์›(dk)์˜ ์ œ๊ณฑ๊ทผ์œผ๋กœ ์ ์ˆ˜๋ฅผ ๋‚˜๋ˆˆ ๋‹ค์Œ ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด attention ๊ฐ€์ค‘์น˜๋ฅผ ์–ป๋Š”๋‹ค. ์ด๋Ÿฌํ•œ ๊ฐ€์ค‘์น˜๋Š” ๊ฐ ๋‹จ์–ด๊ฐ€ ๋‹ค๋ฅธ ๋‹จ์–ด์™€ ์–ผ๋งˆ๋‚˜ ๊ฐ•ํ•˜๊ฒŒ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ๋Š”์ง€ ์˜๋ฏธํ•œ๋‹ค.

  4. ๊ฐ€์ค‘์น˜ ๋ถ€์—ฌ๋œ ๊ฐ’ : ๊ฐ Value ๋ฒกํ„ฐ๋Š” ํ•ด๋‹น ์–ดํ…์…˜ ๊ฐ€์ค‘์น˜์™€ ๊ณฑํ•ด์ง„๋‹ค. ๊ทธ ๊ฒฐ๊ณผ๋Š” ๋”ํ•ด ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•œ ๋ฌธ๋งฅ ์ธ์‹ ํ‘œํ˜„์„ ์ƒ์„ฑํ•œ๋‹ค.

์‹ค์ œ๋กœ๋Š” ์ฟผ๋ฆฌ, ํ‚ค, ๊ฐ’ ๋ฒกํ„ฐ๋ฅผ ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ๋ชจ๋“  ํ† ํฐ์— ๋Œ€ํ•ด Q, K, V ํ–‰๋ ฌ๋กœ ๋งŒ๋“ค๊ณ  ๋™์‹œ์— ๊ณ„์‚ฐ์ด ์ˆ˜ํ–‰๋œ๋‹ค.

Multi-head attention: power in diversity

Multi-head attention์€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ Q, K, V ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์ด๋“ค์€ ๋ณ‘๋ ฌ๋กœ ์‹คํ–‰๋˜๋ฉฐ, ๊ฐ โ€˜ํ—ค๋“œ(Head)โ€˜๋Š” ์ž…๋ ฅ ๊ด€๊ณ„์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์ธก๋ฉด์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ ํ—ค๋“œ์—์„œ ์ถœ๋ ฅ๋œ ๊ฐ’์€ ์—ฐ๊ฒฐ๋˜๊ณ  ์„ ํ˜•๋ณ€ํ˜•๋˜์–ด ๋ชจ๋ธ์— ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ํ’๋ถ€ํ•œ ํ‘œํ˜„์„ ์ œ๊ณตํ•œ๋‹ค. Multi-head attention์˜ ์‚ฌ์šฉ์€ ๋ชจ๋ธ์˜ ๋ณต์žกํ•œ ์–ธ์–ด ํŒจํ„ด ๋ฐ ์žฅ๊ฑฐ๋ฆฌ ์ข…์†์„ฑ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค. ์ด๋Š” ๊ธฐ๊ณ„ ๋ฒˆ์—ญ, ํ…์ŠคํŠธ ์š”์•ฝ, ์งˆ์˜ ์‘๋‹ต๊ณผ ๊ฐ™์€ ๋ฏธ๋ฌ˜ํ•œ ์–ธ์–ด ๊ตฌ์กฐ ๋ฐ ๋‚ด์šฉ ์ดํ•ด๊ฐ€ ํ•„์š”ํ•œ ์ž‘์—…์— ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค. ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์ž…๋ ฅ์˜ ์—ฌ๋Ÿฌ ํ•ด์„ ๋ฐ ํ‘œํ˜„์„ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.

Layer normalization and residual connections

ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๊ฐ ๋ ˆ์ด์–ด๋Š” Multi-head attention ๋ชจ๋“ˆ๊ณผ feed-forward ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๋ ˆ์ด์–ด ์ •๊ทœํ™”(Layer normalization)์™€ ์ž”์ฐจ ์—ฐ๊ฒฐ(residual connections)์„ ์‚ฌ์šฉํ•œ๋‹ค. ๋ ˆ์ด์–ด ์ •๊ทœํ™”๋Š” ์ฃผ์–ด์ง„ ๋ ˆ์ด์–ด์˜ ํ™œ์„ฑํ™”๋ฅผ ์ •๊ทœํ™”ํ•˜๊ธฐ ์œ„ํ•ด ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ๊ณ„์‚ฐํ•œ๋‹ค. ์ด๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ covariate shift๋ฅผ ์ค„์ด๊ณ  ํ•™์Šต ์ค‘ ๋” ๋น ๋ฅธ ์ˆ˜๋ ด์„ ๋‹ฌ์„ฑํ•˜๊ณ  ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์ˆ˜ํ–‰ํ•œ๋‹ค.

Feedforward layer

Multi-head attention ๋ชจ๋“ˆ๊ณผ ์ดํ›„์˜ Add and Norm ๋ ˆ์ด์–ด์˜ ์ถœ๋ ฅ์€ ๊ฐ ํŠธ๋žœ์Šคํฌ๋จธ ๋ธ”๋ก์˜ feed-forward ๋ ˆ์ด์–ด๋กœ ์ „๋‹ฌ๋œ๋‹ค. ์ด ๋ ˆ์ด์–ด๋Š” ์‹œํ€€์Šค ๋‚ด์˜ ๊ฐ ์œ„์น˜์— ๋Œ€ํ•ด ๋…๋ฆฝ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ์— ์œ„์น˜๋ณ„ ๋ณ€ํ™˜์„ ์ ์šฉํ•˜์—ฌ ๋ชจ๋ธ ํ‘œํ˜„์— ์ถ”๊ฐ€์ ์ธ ๋น„์„ ํ˜•์„ฑ๊ณผ ๋ณต์žก์„ฑ์„ ํ†ตํ• ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค€๋‹ค. Feed-forward layer๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ReLU ๋˜๋Š” GELU์™€ ๊ฐ™์€ ๋น„์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜์™€ ํ•จ๊ป˜ 2๊ฐœ์˜ ์„ ํ˜• ๋ณ€ํ™˜์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. Feed-forward ๋ ˆ์ด์–ด ์ฒ˜๋ฆฌ ํ›„ ๋ฐ์ดํ„ฐ๋Š” ๋˜ ๋‹ค๋ฅธ โ€˜Add and Normโ€™ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์น˜๋ฉฐ, ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์˜ ์•ˆ์ •์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ๊ธฐ์—ฌํ•œ๋‹ค.

Encoder and decoder

์›๋ž˜ ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜๋Š” ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋” ๋ชจ๋“ˆ์˜ ์กฐํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ๊ฐ ์ธ์ฝ”๋” ๋ฐ ๋””์ฝ”๋”๋Š” ์ผ๋ จ์˜ ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๊ฐ ๋ ˆ์ด์–ด๋Š” ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ์ธ ๋ฉ€ํ‹ฐ ์…€ํ”„ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜, ์œ„์น˜๋ณ„ ํ”ผ๋“œ ํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ, ์ •๊ทœํ™” ๋ ˆ์ด์–ด ๋ฐ ์ž”์ฐจ ์—ฐ๊ฒฐ์„ ํฌํ•จํ•œ๋‹ค.

์ธ์ฝ”๋”์˜ ์ฃผ์š” ๊ธฐ๋Šฅ์€ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ๊ฐ ํ† ํฐ์— ๋Œ€ํ•œ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ์—ฐ์†์ ์ธ ํ‘œํ˜„์œผ๋กœ ์ฒ˜๋ฆฌํ•œ๋‹ค. ์ž…๋ ฅ ์‹œํ€€์Šค๋Š” ๋จผ์ € ์ •๊ทœํ™”, ํ† ํฐํ™” ๊ณผ์ •์„ ํ†ตํ•ด ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜๋œ๋‹ค. Self-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์‹œํ€€์Šค ๋‚ด์˜ ๊ฐ ํ† ํฐ์€ ๋‹ค๋ฅธ ๋ชจ๋“  ํ† ํฐ์— ๋™์ ์œผ๋กœ ์ฃผ์˜๋ฅผ ๊ธฐ์šธ์—ฌ ์‹œํ€€์Šค ๋‚ด์˜ ๋ฌธ๋งฅ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

๋””์ฝ”๋”๋Š” ์ธ์ฝ”๋”์˜ ์ถœ๋ ฅ ๋ฒกํ„ฐ Z๊ฐ€ ์ œ๊ณตํ•˜๋Š” ์ปจํ…์ŠคํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถœ๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์—ญํ• ์„ ํ•œ๋‹ค. ๋””์ฝ”๋”๋Š” ์‹œ์ž‘ ํ† ํฐ์„ ์‹œ์ž‘์œผ๋กœ ํ† ํฐ ๋‹จ์œ„๋กœ ํ•˜๋‚˜์”ฉ ์ƒ์„ฑํ•ด ๋‚˜๊ฐ„๋‹ค. ๋””์ฝ”๋” ๋ ˆ์ด์–ด๋Š” ๋‘ ๊ฐ€์ง€ ์ข…๋ฅ˜์˜ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•œ๋‹ค.

  1. ๋งˆ์Šคํ‚น๋œ ์ž๊ธฐ ์–ดํ…์…˜(masked self-attention)
    • ํ˜„์žฌ ์œ„์น˜์˜ ํ† ํฐ์€ ์ถœ๋ ฅ ์‹œํ€€์Šค์—์„œ ์•ž์ชฝ์— ์žˆ๋Š” ํ† ํฐ๋“ค๋งŒ ์ฐธ์กฐํ•  ์ˆ˜ ์žˆ๋„๋ก ์ œํ•œํ•œ๋‹ค.
    • ์ด๋ ‡๊ฒŒ ํ•ด์•ผ ์˜คํ† ๋ ˆ๊ทธ๋ ˆ์‹œ๋ธŒ(auto-regressive) ์†์„ฑ์„ ์ง€ํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.
    • ์ฆ‰, ๋ฏธ๋ž˜ ํ† ํฐ์„ ๋ฏธ๋ฆฌ ์•Œ์ง€ ๋ชปํ•˜๊ฒŒ ํ•˜์—ฌ ์˜ˆ์ธก์ด ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ด๋ฃจ์–ด์ง€๋„๋ก ํ•œ๋‹ค.
  2. ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ต์ฐจ ์–ดํ…์…˜(encoder-decoder cross-attention)
    • ๋””์ฝ”๋”๊ฐ€ ์ธ์ฝ”๋”๊ฐ€ ๋งŒ๋“  ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ๋ฌธ๋งฅ ์ž„๋ฒ ๋”ฉ(contextual embeddings)์„ ์ฐธ์กฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด ์ž…๋ ฅ ๋‚ด์šฉ ์ค‘ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์— ์ง‘์ค‘ํ•˜์—ฌ ๋” ์ •ํ™•ํ•œ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๊ณผ์ •์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋ฉด์„œ ๋””์ฝ”๋”๋Š” ํ† ํฐ์„ ํ•˜๋‚˜์”ฉ ์ƒ์„ฑํ•˜๊ณ , ๋งˆ์ง€๋ง‰์—๋Š” ์ข…๋ฃŒ ํ† ํฐ(end-of-sequence token)์„ ์ƒ์„ฑํ•˜๋ฉด์„œ ์ถœ๋ ฅ ์‹œํ€€์Šค๋ฅผ ์™„์„ฑํ•œ๋‹ค.

Mixture of Experts(MoE)

Mixture of Experts(MoE)๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ „๋ฌธํ™”๋œ ์„œ๋ธŒ๋ชจ๋ธ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ „์ฒด์ ์ธ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์•„ํ‚คํ…์ณ์ด๋‹ค. ํŠนํžˆ ๋ณต์žกํ•œ ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•œ๋‹ค. MoE๋Š” ์•™์ƒ๋ธ” ํ•™์Šต์˜ ํ•œ ํ˜•ํƒœ์ด์ง€๋งŒ, ์ค‘์š”ํ•œ ์ฐจ์ด์ ์ด ํ•˜๋‚˜ ์žˆ๋‹ค. ๋‹จ์ˆœํžˆ ๋ชจ๋“  ์ „๋ฌธ๊ฐ€์˜ ์˜ˆ์ธก์„ ํ‰๊ท ๋‚ด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์ž…๋ ฅ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋ถ€๋ถ„์„ ์„œ๋กœ ๋‹ค๋ฅธ ์ „๋ฌธ๊ฐ€์—๊ฒŒ ์ „๋‹ฌํ•˜๋„๋ก ํ•™์Šตํ•œ๋‹ค๋Š” ์ ์ด๋‹ค. ์ด๋กœ ์ธํ•ด ๋ชจ๋ธ์€ ํŠน์ • ํ•˜์œ„ ์˜์—ญ(sub-domain)์ด๋‚˜ ๋ฐ์ดํ„ฐ์˜ ํŠน์ • ์ธก๋ฉด์— ๋Œ€ํ•ด ๊ฐ๊ฐ์˜ ์ „๋ฌธ๊ฐ€๊ฐ€ ์ „๋ฌธํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ „๋ฌธ๊ฐ€(Experts)

  • ๊ฐ๊ฐ์˜ ์„œ๋ธŒ๋ชจ๋ธ๋กœ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ํŠน์ • ๋ถ€๋ถ„์ด๋‚˜ ํŠน์ • ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•˜๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ๋‹ค. ์ด ๋ชจ๋ธ๋“ค์€ ์‹ ๊ฒฝ๋ง, ์˜์‚ฌ๊ฒฐ์ •ํŠธ๋ฆฌ ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์—์„œ๋Š” ๋ณดํ†ต ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

๊ฒŒ์ดํŒ… ๋„คํŠธ์›Œํฌ(Gating Network ๋˜๋Š” ๋ผ์šฐํ„ฐ Router)

  • ์ž…๋ ฅ์„ ์ ์ ˆํ•œ ์ „๋ฌธ๊ฐ€์—๊ฒŒ ์ „๋‹ฌํ•˜๋Š” ์—ญํ• ์„ ํ•˜๋Š” ๋งค์šฐ ์ค‘์š”ํ•œ ๊ตฌ์„ฑ ์š”์†Œ์ด๋‹ค. ์ด ๋„คํŠธ์›Œํฌ๋Š” ์ž…๋ ฅ์„ ๋ฐ›์•„์„œ ์ „๋ฌธ๊ฐ€๋“ค์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค. ์ด ํ™•๋ฅ ์€ ๊ฐ ์ „๋ฌธ๊ฐ€๊ฐ€ ์ตœ์ข… ์˜ˆ์ธก์— ์–ผ๋งˆ๋‚˜ ๊ธฐ์—ฌํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค. ์ด ๊ฒŒ์ดํŒ… ๋„คํŠธ์›Œํฌ ๋˜ํ•œ ๋ณดํ†ต์€ ์‹ ๊ฒฝ๋ง์œผ๋กœ ๊ตฌ์„ฑํ•œ๋‹ค.

๊ฒฐํ•ฉ ๋ฉ”์ปค๋‹ˆ์ฆ˜(Combination Mechanism)

  • ์ „๋ฌธ๊ฐ€๋“ค์˜ ์ถœ๋ ฅ์„ ๊ฒŒ์ดํŒ… ๋„คํŠธ์›Œํฌ๊ฐ€ ์ œ๊ณตํ•œ ํ™•๋ฅ  ๊ฐ€์ค‘์น˜๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ์ตœ์ข… ์˜ˆ์ธก์„ ์ƒ์„ฑํ•œ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฐ€์ค‘ ํ‰๊ท  ๋ฐฉ์‹์ด ์‚ฌ์šฉ๋œ๋‹ค.

์‹ค์ œ๋กœ MoE ์•„ํ‚คํ…์ฒ˜๋Š” ์ „๋ฌธ๊ฐ€๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ „๋ฌธํ™”๋œ ์„œ๋ธŒ๋ชจ๋ธ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๋ณต์žกํ•œ ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•œ๋‹ค. ๋‹จ์ˆœํžˆ ๋ชจ๋“  ์ „๋ฌธ๊ฐ€์˜ ์˜ˆ์ธก์„ ํ‰๊ท ๋‚ด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ MoE๋Š” ๊ฒŒ์ดํŒ… ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ์˜ ๊ฐ ๋ถ€๋ถ„์„ ๊ฐ€์žฅ ์ ์ ˆํ•œ ์ „๋ฌธ๊ฐ€์—๊ฒŒ ์ ์ ˆํžˆ ๋ถ„๋ฐฐํ•œ๋‹ค.

์ž…๋ ฅ์€ ์ „๋ฌธ๊ฐ€๋“ค๊ณผ ๊ฒŒ์ดํŒ… ๋„คํŠธ์›Œํฌ ๋ชจ๋‘์—๊ฒŒ ์ „๋‹ฌ๋œ๋‹ค.

  • ๊ฐ ์ „๋ฌธ๊ฐ€๋Š” ์ž…๋ ฅ์„ ๋ฐ›์•„ ์ž์ฒด์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•œ๋‹ค.
  • ๋™์‹œ์— ๊ฒŒ์ดํŒ… ๋„คํŠธ์›Œํฌ๋Š” ์ž…๋ ฅ์„ ๋ถ„์„ํ•˜์—ฌ ์ „๋ฌธ๊ฐ€๋ณ„ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ์ด ํ™•๋ฅ ์€ ๊ฐ ์ „๋ฌธ๊ฐ€๊ฐ€ ์ตœ์ข… ๊ฒฐ๊ณผ์— ์–ผ๋งˆ๋‚˜ ๊ธฐ์—ฌํ• ์ง€๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

์ด๋ ‡๊ฒŒ ๊ณ„์‚ฐ๋œ ํ™•๋ฅ ์€ ์ „๋ฌธ๊ฐ€๋“ค์˜ ์ถœ๋ ฅ์— ๊ฐ€์ค‘์น˜๋กœ ์ ์šฉ๋˜๊ณ , ๊ฐ€์ค‘ ํ•ฉ(Weighted combination)์ด ์ตœ์ข… ์˜ˆ์ธก ๊ฒฐ๊ณผ๊ฐ€ ๋œ๋‹ค. ์ด ๋ฐฉ์‹์€ ๊ฐ๊ฐ์˜ ์ „๋ฌธ๊ฐ€๊ฐ€ ํŠน์ • ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ๋‚˜ ํ•˜์œ„ ์ž‘์—…์— ํŠนํ™”๋  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋ฉฐ ๋ชจ๋ธ์˜ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค. ๋˜ํ•œ ํฌ์†Œ ํ™œ์„ฑํ™”(sparse activation)๋ฅผ ํ†ตํ•ด ํ•˜๋‚˜์˜ ์ž…๋ ฅ์— ๋Œ€ํ•ด ์ผ๋ถ€ ์ „๋ฌธ๊ฐ€๋งŒ ํ™œ์„ฑํ™”๋˜๋„๋ก ํ•˜์—ฌ ๊ณ„์‚ฐ ๋น„์šฉ(computational cost)๋„ ์ ˆ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

Large Reasoning Models

๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์—๊ฑฐ ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๊ฒƒ์€ ๋งค์šฐ ๋ณต์žกํ•œ ์ž‘์—…์ด๋ฉฐ, ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ๋ชจ๋ธ ๊ตฌ์กฐ ์„ค๊ณ„, ํ›ˆ๋ จ ๋ฐฉ๋ฒ•, ๊ทธ๋ฆฌ๊ณ  ํ”„๋กฌํ”„ํŠธ ์ „๋žต์˜ ์กฐํ•ฉ์ด ํ•„์š”ํ•˜๋‹ค.

๊ณ ๊ธ‰ ํ”„๋กฌํ”„ํŠธ ์ „๋žต๋“ค

  1. Chain-of-Thought(CoT)
    • ๋ชจ๋ธ์ด ์ตœ์ข… ๋‹ต์„ ๋‚ด๊ธฐ ์ „์— ์ค‘๊ฐ„ ์ถ”๋ก  ๋‹จ๊ณ„๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก ์œ ๋„ํ•œ๋‹ค.
    • ํ”„๋กฌํ”„ํŠธ์— ๋‹จ๊ณ„๋ณ„ ์ถ”๋ก  ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•˜์—ฌ, ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ์ž‘์€ ํ•˜์œ„ ๋ฌธ์ œ๋กœ ๋‚˜๋ˆ„์–ด ํ•ด๊ฒฐํ•˜๋„๋ก ํ•™์Šตํ•œ๋‹ค.
    • ์ด๋Š” ์‚ฌ๋žŒ์˜ ์‚ฌ๊ณ  ๊ณผ์ •์„ ๋ชจ๋ฐฉํ•˜๋ฉฐ, ๋‹ค๋‹จ๊ณ„ ์ถ”๋ก (multi-step inference)์ด ํ•„์š”ํ•œ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.
  2. Tree-of-Thoughts(ToT)
    • ์—ฌ๋Ÿฌ ์ถ”๋ก  ๊ฒฝ๋กœ๋ฅผ ํƒ์ƒ‰ํ•˜๊ณ , ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜(search algorithm)์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์žฅ ์œ ๋งํ•œ ํ•ด๊ฒฐ์ฑ…์„ ์ฐพ๋Š”๋‹ค.
    • ํŠนํžˆ ๊ฒŒ์ž„ ํŠธ๋ฆฌ๋‚˜ ์กฐํ•ฉ์  ๋ฌธ์ œ(combinatiorial problems)์— ์œ ์šฉํ•˜๋‹ค.
  3. Least-to-Most
    • ์‰ฌ์šด ํ•˜์œ„ ๋ฌธ์ œ๋ถ€ํ„ฐ ์ ์  ๋” ์–ด๋ ค์šด ๋ฌธ์ œ๋กœ ํ™•์žฅํ•ด ๋‚˜๊ฐ€๋Š” ๋ฐฉ์‹์ด๋‹ค.
    • ์•ž์„  ํ•˜์œ„ ๋ฌธ์ œ์˜ ์ถœ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค์Œ ๋ฌธ์ œ์˜ ํ”„๋กฌํ”„ํŠธ์— ํฌํ•จ์‹œ์ผœ ์ ์ง„์ ์ธ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ ๋„ํ•œ๋‹ค.

๋ชจ๋ธ ํ›ˆ๋ จ ๊ธฐ๋ฒ•(Training Methodologies) ์ถ”๋ก  ์ „์šฉ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํŒŒ์ธํŠœ๋‹(Fine-tuing)

  • ๋…ผ๋ฆฌ ํผ์ฆ, ์ˆ˜ํ•™ ๋ฌธ์ œ, ์ƒ์‹ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋ฌธ์ œ ๋“ฑ์ด ํฌํ•จ๋œ ์ „์šฉ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ชจ๋ธ์„ ์ถ”๊ฐ€ ํ›ˆ๋ จํ•œ๋‹ค.

์ง€์‹œ ๊ธฐ๋ฐ˜ ํŠœ๋‹(Instruction Tuning)

  • ์ž์—ฐ์–ด๋กœ ๋œ ๋ช…๋ น์–ด๋ฅผ ๋”ฐ๋ฅด๋„๋ก ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ ๋ณต์žกํ•œ ์ถ”๋ก  ์š”์ฒญ์— ์ž˜ ๋ฐ˜์‘ํ•˜๋„๋ก ๋งŒ๋“ ๋‹ค. ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต(Reinforcement Learning from Human Feedback, RLHF)
  • ์‚ฌ๋žŒ์˜ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ๊ฐœ์„ ํ•œ๋‹ค.
  • ์ถ”๋ก  ๋Šฅ๋ ฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์œ ์šฉ์„ฑ(helpfulness)๊ณผ ์ผ๊ด€์„ฑ(coherence)๋„ ํ–ฅ์ƒ๋œ๋‹ค.

์ง€์‹ ์ฆ๋ฅ˜(Knowledge Distillation)

  • ๋” ํฐ ์„ฑ๋Šฅ์„ ๊ฐ€์ง„ ๊ต์‚ฌ ๋ชจ๋ธ(teacher)์˜ ์ง€์‹์„ ๋” ์ž‘๋„ ํšจ์œจ์ ์ธ ํ•™์ƒ ๋ชจ๋ธ(stduent)์— ์ „์ดํ•œ๋‹ค.
  • ์ด๋ฅผ ํ†ตํ•ด ๊ณ„์‚ฐ ์ž์›์€ ์ค„์ด๋ฉด์„œ๋„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ถ”๋ก  ์‹œ์˜ ๊ธฐ๋ฒ•๋“ค(Inference Techniques)

  • ๋น” ์„œ์น˜(Beam Search) : ์—ฌ๋Ÿฌ ํ›„๋ณด ์ถœ๋ ฅ์„ ๋™์‹œ์— ํƒ์ƒ‰ํ•˜์—ฌ, ๋” ๋‚˜์€ ์ถ”๋ก  ๊ฒฐ๊ณผ๋ฅผ ์„ ํƒํ•œ๋‹ค.
  • ์˜จ๋„ ์กฐ์ ˆ(Temperature Scaling) : ์ถœ๋ ฅ์˜ ๋ฌด์ž‘์œ„์„ฑ(randomness)์„ ์กฐ์ ˆํ•˜์—ฌ ํƒํ—๊ณผ ์ด์šฉ(exploration vs exploitation) ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ๋งž์ถ˜๋‹ค.

์™ธ๋ถ€ ์ง€์‹ ํ†ตํ•ฉ(External Knowledge Integration)

  • ์ง€์‹ ๊ทธ๋ž˜ํ”„(knowledge graph)๋‚˜ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ๊ฐ™์€ ์™ธ๋ถ€ ์ง€์‹์„ ํ™œ์šฉํ•˜์—ฌ, ๋ชจ๋ธ์˜ ์ถ”๋ก  ๊ณผ์ •์— ์ถ”๊ฐ€์ ์ธ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
  • ๋Œ€ํ‘œ์ ์ธ ๊ธฐ๋ฒ•์€ Retrieval-Augmented Generation(RAG)์œผ๋กœ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๊ธฐ ์ „์— ๊ด€๋ จ ์ •๋ณด๋ฅผ ๊ฒ€์ƒ‰ํ•ด์„œ ๋ชจ๋ธ์—๊ฒŒ ์ œ๊ณตํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

Training the transformer

๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐํ•  ๋•Œ ํ›ˆ๋ จ(training)๊ณผ ์ถ”๋ก (inference)์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฒƒ์€ ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค.

  • ํ›ˆ๋ จ : ๋ณดํ†ต ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ(๋งค๊ฐœ๋ณ€์ˆ˜)๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๊ณผ์ •์ด๋‹ค.
  • ์ถ”๋ก  : ์˜ˆ์ธก๋œ ์ถœ๋ ฅ์„ ์–ป๊ธฐ ์œ„ํ•œ ๊ณผ์ •์œผ๋กœ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋Š” ๋ณ€๊ฒฝ๋˜์ง€ ์•Š๋Š”๋‹ค.

์ด์ œ๋ถ€ํ„ฐ ํŠธ๋žœ์Šคํฌ๋จธ ํ›ˆ๋ จ์— ๋Œ€ํ•ด์„œ ์„ค๋ช…ํ•˜๊ณ ์ž ํ•œ๋‹ค.

Data preparation

ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ ํ›ˆ๋ จ์˜ ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ๋ฐ์ดํ„ฐ ์ค€๋น„(Data preparation)์ด๋ฉฐ, ์ด ๊ณผ์ • ์ž์ฒด๋„ ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๋‹จ๊ณ„๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค.

  1. ๋ฐ์ดํ„ฐ ์ •์ œ(Cleaning the Data)

    • ํ•„ํ„ฐ๋ง : ๋ถˆํ•„์š”ํ•˜๊ฑฐ๋‚˜ ํ’ˆ์งˆ์ด ๋‚ฎ์€ ๋ฐ์ดํ„ฐ ์ œ๊ฑฐ
    • ์ค‘๋ณต ์ œ๊ฑฐ : ์ค‘๋ณต๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ฑฐ
    • ์ •๊ทœํ™” : ๋ฐ์ดํ„ฐ ํฌ๋งท์„ ์ผ๊ด€๋˜๊ฒŒ ๋งž์ถ”๊ธฐ(์˜ˆ: ๋Œ€์†Œ๋ฌธ์ž ํ†ต์ผ, ๊ณต๋ฐฑ ์ œ๊ฑฐ ๋“ฑ)
  2. ํ† ํฌ๋‚˜์ด์ง•(Tokenization)

    • ๋ฐ์ดํ„ฐ์…‹์„ ํ† ํฐ์ด๋ผ๋Š” ์ž‘์€ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„๋Š” ๊ณผ์ •
    • ๋Œ€ํ‘œ์ ์ธ ๋ฐฉ๋ฒ•์—๋Š” Byte-Pair Encoding(BPE), Unigram Tokenization ๋“ฑ์ด ์žˆ๋‹ค.
    • ์ด ๊ณผ์ •์„ ํ†ตํ•ด ์–ดํœ˜ ์ง‘ํ•ฉ(vocabulary)์ด ์ƒ์„ฑ๋œ๋‹ค.
  3. ๋ฐ์ดํ„ฐ์…‹ ๋ถ„ํ• (Dataset Splitting)

    • ํ›ˆ๋ จ ๋ฐ์ดํ…ƒ๊ณผ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ถ„ํ• ํ•œ๋‹ค.

Training and loss function

ํ›ˆ๋ จ ๊ณผ์ • ์š”์•ฝ

  1. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ž…๋ ฅ ์‹œํ€€์Šค ๋ฌถ์Œ(batch)์„ ์ƒ˜ํ”Œ๋งํ•œ๋‹ค.
  2. ๋น„์ง€๋„ ์‚ฌ์ „ํ•™์Šต์—์„œ๋Š” ๋ชฉํ‘œ ์‹œํ€€์Šค๊ฐ€ ์ž…๋ ฅ ์‹œํ€€์Šค ์ž์ฒด๋กœ๋ถ€ํ„ฐ ์ƒ์„ฑ๋œ๋‹ค.
  3. ์ž…๋ ฅ ์‹œํ€€์Šค ๋ฌถ์Œ์€ ํŠธ๋žœ์Šคํฌ๋จธ์— ์ž…๋ ฅ๋œ๋‹ค.
  4. ์˜ˆ์ธก๋œ ์‹œํ€€์Šค์™€ ๋ชฉํ‘œ ์‹œํ€€์Šค ๊ฐ„์˜ ์ฐจ์ด๋Š” ๋ณดํ†ต ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค ํ•จ์ˆ˜(cross-entropy loss) ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ„์‚ฐ๋œ๋‹ค.
  5. ์†์‹ค(loss)์˜ ๊ธฐ์šธ๊ธฐ(gradient)๊ฐ€ ๊ณ„์‚ฐ๋˜๊ณ  ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜(optimizer)์ด ๊ธฐ์šธ๊ธฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.
  6. ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜์—ฌ ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์ผ์ •ํ•œ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•˜๊ฑฐ๋‚˜ ์‚ฌ์ „์— ์ง€์ •ํ•œ ํ† ํฐ ์ˆ˜ ๋งŒํผ ํ›ˆ๋ จ์ด ์ง„ํ–‰๋  ๋•Œ๊นŒ์ง€ ๊ณ„์†๋œ๋‹ค.

์•„ํ‚คํ…์ฒ˜๋ณ„ ํ›ˆ๋ จ ๋ฐฉ์‹

1. ๋””์ฝ”๋” ์ „์šฉ ๋ชจ๋ธ(Decoder-only models)

  • ์ฃผ๋กœ ์–ธ์–ด ๋ชจ๋ธ๋ง ์ž‘์—…์— ์‚ฌ์ „ ํ›ˆ๋ จ๋œ๋‹ค.
  • ๋ชฉํ‘œ ์‹œํ€€์Šค๋Š” ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ํ•œ ์นธ ์ด๋™๋œ ๋ฒ„์ „์ด๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ํ›ˆ๋ จ ์‹œํ€€์Šค๊ฐ€ the cat sat on the mat์ด๋ผ๋ฉด:

์ž…๋ ฅ ์‹œํ€€์Šค์˜ˆ์ธกํ•ด์•ผ ํ•  ๋ชฉํ‘œ
the cat sat onthe
the cat sat on themat

์ด๋ ‡๊ฒŒ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ/์ถœ๋ ฅ ์Œ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

2. ์ธ์ฝ”๋” ์ „์šฉ ๋ชจ๋ธ(Encoder-only models, ์— BERT)

  • ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ผ๋ถ€ ํ›ผ์†(corrupt)์‹œํ‚ค๊ณ  ๋ชจ๋ธ์ด ์ด๋ฅผ ๋ณต์›(reconstruct)ํ•˜๋„๋ก ํ›ˆ๋ จํ•œ๋‹ค.
  • ๋Œ€ํ‘œ์ ์ธ ๋ฐฉ์‹์€ ๋งˆ์Šคํ‚น ์–ธ์–ด ๋ชจ๋ธ๋ง์ด๋‹ค.

์˜ˆ์‹œ

  • ์ž…๋ ฅ: The [MASK] sat on the mat
  • ๋ชฉํ‘œ ์‹œํ€€์Šค: The cat sat on the mat

3. ์ธ์ฝ”๋”-๋””์ฝ”๋” ๋ชจ๋ธ(Encoder-Decoder models, ์—: ํƒœ์ดˆ์˜ Transformer)

  • Sequence-to-sequence ์ž‘์—…์— ์‚ฌ์šฉ๋˜๋ฉฐ ๊ฐ๋… ํ•™์Šต(supervised) ๋ฐฉ์‹์œผ๋กœ ํ›ˆ๋ จ๋œ๋‹ค.
  • ์˜ˆ์‹œ ์ž‘์—…๋“ค:
    • ๋ฒˆ์—ญ: ์ž…๋ ฅ โ†’ Le chat est assis sur le tapis, ๋ชฉํ‘œ โ†’ The cat sat on the mat
    • ์งˆ๋ฌธ-๋‹ต๋ณ€: ์ž…๋ ฅ โ†’ ์งˆ๋ฌธ, ๋ชฉํ‘œ โ†’ ๋‹ต
    • ์š”์•ฝ: ์ž…๋ ฅ โ†’ ๊ธด ๊ธฐ์‚ฌ, ๋ชฉํ‘œ โ†’ ์š”์•ฝ๋ฌธ
  • ๋˜ํ•œ, ์œ„ํ‚ค๋ฐฑ๊ณผ์ฒ˜๋Ÿผ ์ผ๋ฐ˜ ํ…์ŠคํŠธ๋ฅผ ์ด์šฉํ•ด ๋น„์ง€๋„ ๋ฐฉ์‹์œผ๋กœ๋„ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    ์˜ˆ: ์ž…๋ ฅ โ†’ ๋ฌธ์„œ ์•ž๋ถ€๋ถ„, ๋ชฉํ‘œ โ†’ ๋’ท๋ถ€๋ถ„

4. ์ถ”๊ฐ€ ๊ณ ๋ ค ์‚ฌํ•ญ: ์ปจํ…์ŠคํŠธ ๊ธธ์ด(Context Length)

  • ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ž€, ๋ชจ๋ธ์ด ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•  ๋•Œ ์ด์ „์˜ ๋ช‡ ๊ฐœ ํ† ํฐ๊นŒ์ง€ ๊ธฐ์–ตํ•˜๊ณ  ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๋งํ•œ๋‹ค.
  • ์ปจํ…์ŠคํŠธ๊ฐ€ ๊ธธ์ˆ˜๋ก ๋ณต์žกํ•œ ๊ด€๊ณ„๋‚˜ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ๋” ์ž˜ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์–ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋„์›€์ด ๋œ๋‹ค.
  • ํ•˜์ง€๋งŒ ๊ธธ์ด๊ฐ€ ๊ธธ์ˆ˜๋ก ์—ฐ์‚ฐ๋Ÿ‰๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ์ฆ๊ฐ€ํ•˜์—ฌ, ํ›ˆ๋ จ ๋ฐ ์ถ”๋ก  ์†๋„๊ฐ€ ๋А๋ ค์งˆ ์ˆ˜ ์žˆ๋‹ค.
  • ๋”ฐ๋ผ์„œ ์ž‘์—…์˜ ํŠน์„ฑ๊ณผ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ์ž์›์„ ๊ณ ๋ คํ•˜์—ฌ ์ ์ ˆํ•œ ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ ๊ท ํ˜• ์žˆ๊ฒŒ ์„ ํƒํ•ด์•ผ ํ•œ๋‹ค.

The evolution of transformers

์ด๋ฒˆ ์„น์…˜์€ ๋‹ค์–‘ํ•œ ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜์— ๋Œ€ํ•œ ๊ฐœ์š”์ž…๋‹ˆ๋‹ค. GPT-1๊ณผ BERT๋กœ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜์—ฌ ๋งˆ์ง€๋ง‰์—๋Š” Google์˜ ์ตœ์‹  ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ ์‹œ๋ฆฌ์ฆˆ์ธ Gemini๊นŒ์ง€ ์‚ดํŽด๋ณผ ์˜ˆ์ •์ด๋‹ค.

BERT

BERT๋Š” Bidirectional Encoder Representations from Transformers์˜ ์•ฝ์ž๋กœ ์ „ํ†ต์ ์ธ ์ธ์ฝ”๋”-๋””์ฝ”๋” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค๊ณผ๋Š” ๋‹ฌ๋ฆฌ, ์ธ์ฝ”๋” ์ „์šฉ(encoder-only) ์•„ํ‚คํ…์ฒ˜์ด๋‹ค.

ํ•ต์‹ฌ ํŠน์ง• BERT๋Š” ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ๋ฒˆ์—ญํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ฌธ๋งฅ์„ ๊นŠ์ด ์žˆ๊ฒŒ ์ดํ•ด๋‚˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋งˆ์Šคํ‚น ์–ธ์–ด ๋ชจ๋ธ์ด๋ผ๋Š” ํ•™์Šด ๋ชฉํ‘œ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

๋งˆ์Šคํ‚น ์–ธ์–ด ๋ชจ๋ธ

  • ๋ฌธ์žฅ์—์„œ ๋ฌด์ž‘์œ„ ๋‹จ์–ด๋ฅผ [MASK] ํ† ํฐ์œผ๋กœ ๋ฐ”๊พธ๊ณ , BERT๋Š” ์–‘์ชฝ ๋ฌธ๋งฅ์„ ๋ณด๊ณ  ์›๋ž˜ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค.

์ด ๋ฐฉ์‹์€ ๋‹จ์–ด์˜ ์™ผ์ชฝ๊ณผ ์˜ค๋ฅธ์ชฝ ๋ฌธ๋งฅ์„ ๋™์‹œ์— ๊ณ ๋ คํ•˜๊ฒŒ ํ•˜๋ฏ€๋กœ, ๊ธฐ์กด ํŠธ๋žœ์Šคํฌ๋จธ๋ณด๋‹ค ๋” ์ •๋ฐ€ํ•œ ๋ฌธ๋งฅ ์ดํ•ด๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.

๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก BERT๋Š” ๋˜ ๋‹ค๋ฅธ ํ›ˆ๋ จ ๋ชฉํ‘œ๋กœ NSP๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

  • ๋‘ ๋ฌธ์žฅ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋‘ ๋ฒˆ์งธ ๋ฌธ์žฅ์ด ์ฒซ ๋ฒˆ์งธ ๋ฌธ์žฅ ๋’ค์— ์‹ค์ œ๋กœ ์ด์–ด์ง€๋Š” ๋ฌธ์žฅ์ธ์ง€๋ฅผ ํŒ๋‹จํ•˜๊ฒŒ ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ BERT๋Š”
  • ๋‹จ์–ด ์ˆ˜์ค€์—์„œ ์–‘๋ฐฉํ–ฅ ๋ฌธ๋งฅ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค.
  • ๋ฌธ์žฅ ๊ฐ„ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

ํ™œ์šฉ ๋ถ„์•ผ ์ด๋Ÿฌํ•œ ๋Šฅ๋ ฅ ๋•๋ถ„์— BERT๋Š” ํŠนํžˆ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ž์—ฐ์–ด ์ดํ•ด(NLU) ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

  • ์งˆ๋ฌธ-๋‹ต๋ณ€(Question Answering)
  • ๊ฐ์ • ๋ถ„์„(Sentiment Analysis)
  • ์ž์—ฐ์–ด ์ถ”๋ก (Natural Language Inference) ๋“ฑ

BERT์˜ ํ•œ๊ณ„

  • ์ธ์ฝ”๋” ์ „์šฉ ๋ชจ๋ธ์ด๊ธฐ ๋•Œ๋ฌธ์— BERT๋Š” ํ…์ŠคํŠธ ์ƒ์„ฑ ๊ธฐ๋Šฅ์€ ์—†๋‹ค.

GPT-1

GPT-1(Generative Pre-trained Transformer ๋ฒ„์ „ 1)์€ OpenAI๊ฐ€ 2018๋…„์— ๊ฐœ๋ฐœํ•œ ๋””์ฝ”๋” ์ „์šฉ ๋ชจ๋ธ์ด๋‹ค. ์ด ๋ชจ๋ธ์€ BooksCorpus๋ผ๋Š” ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต๋˜์—ˆ๊ณ  ํ…์ŠคํŠธ ์ƒ์„ฑ, ์–ธ์–ด ๋ฒˆ์—ญ, ์ฐฝ์˜์ ์ธ ์ฝ˜ํ…์ธ  ์ž‘์„ฑ, ์ •๋ณด์„ฑ ์งˆ๋ฌธ ์‘๋‹ต ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

GPT-1์˜ ์ฃผ์š” ํ˜์‹ 

1. ํŠธ๋žœ์Šคํฌ๋จธ + ๋น„์ง€๋„ ์‚ฌ์ „ํ•™์Šต์˜ ๊ฒฐํ•ฉ

  • ๋น„์ง€๋„ ์‚ฌ์ „ํ•™์Šต์€ ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด ๋จผ์ € ์–ธ์–ด ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•œ ํ›„, ํŠน์ • ์ž‘์—…(์˜ˆ: ๋ฒˆ์—ญ, ๊ฐ์ • ๋ถ„์„ ๋“ฑ)์„ ์œ„ํ•ด ๊ฐ๋… ํ•™์Šต์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.
  • ์ด์ „์—๋Š” ๋Œ€๋ถ€๋ถ„์˜ ์–ธ์–ด ๋ชจ๋ธ์ด ๊ฐ๋… ํ•™์Šต ๋ฐฉ์‹์œผ๋กœ๋งŒ ํ›ˆ๋ จ๋˜์—ˆ๊ณ , ์ด์—๋Š” 2๊ฐ€์ง€ ๋ฌธ์ œ์ ์ด ์žˆ์—ˆ๋‹ค.
    1. ๋ ˆ์ด๋ธ”์ด ๋ถ™์€ ๋ฐ์ดํ„ฐ(labeled data)๋ฅผ ๋Œ€๋Ÿ‰์œผ๋กœ ์ˆ˜์ง‘ํ•ด์•ผ ํ•˜๋Š”๋ฐ, ์ด๊ฑด ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์ด ๋งŽ์ด ๋“ ๋‹ค.
    2. ๋ชจ๋ธ์€ ํ›ˆ๋ จ์— ์‚ฌ์šฉ๋œ ์ž‘์—…๊ณผ ์œ ์‚ฌํ•œ ์ž‘์—…์—๋งŒ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ๋ฐ˜๋ฉด, ๋น„์ง€๋„ ์‚ฌ์ „ํ•™์Šต + ๊ฐ๋… ๋ฏธ์„ธ ์กฐ์ •์˜ ์กฐํ•ฉ์€ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ๋Œ€ํ‘œ ์‚ฌ๋ก€ ์ค‘ ํ•˜๋‚˜๊ฐ€ Semi-supervised Sequence Learning์ด๋‹ค.

2. BooksCorpus ๋ฐ์ดํ„ฐ์…‹์˜ ์‚ฌ์šฉ

  • GPT-1์€ ์•ฝ 5GB ๊ทœ๋ชจ์˜ ๋ ˆ์ด๋ธ” ์—†๋Š” ํ…์ŠคํŠธ๋กœ ๊ตฌ์„ฑ๋œ BooksCorpus ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šต๋˜์—ˆ๋‹ค.
  • ์ด ๋ฐ์ดํ„ฐ์…‹์€ 7,000๊ถŒ ์ด์ƒ์˜ ๋ฏธ์ถœ๊ฐ„ ์ฑ…์„ ํฌํ•จํ•˜๊ณ  ์žˆ์–ด ๋‹ค์–‘ํ•œ ๋ฌธ๋งฅ๊ณผ ๊ธด ๋ฌธ์žฅ์„ ํ•™์Šตํ•˜๋Š”๋ฐ ์ ํ•ฉํ•˜๋‹ค.
  • ์—ฐ์†์ ์ธ ๋ฌธ์žฅ ๊ตฌ์กฐ๊ฐ€ ๋งŽ์•„, ์žฅ๊ธฐ ์˜์กด์„ฑ์„ ๋ฐฐ์šฐ๋Š” ๋ฐ๋„ ํšจ๊ณผ์ ์ด๋‹ค.

3. ์ž‘์—… ์ธ์‹ํ˜• ์ž…๋ ฅ ๋ณ€ํ™˜(Task-aware Input Transformations) GPT-1์€ ํŠน์ • ์ž‘์—…์„ ์œ„ํ•œ ๊ตฌ์กฐํ™”๋œ ์ž…๋ ฅ์„ ํ”„๋กฌํ”„ํŠธ ๊ตฌ์กฐ๋กœ ๋‹จ์ˆœํžˆ ๋ณ€ํ™˜ํ•ด์„œ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค. ์ด๋Š” ์ž‘์—…๋ณ„ ์•„ํ‚คํ…์ฒ˜ ์—†์ด๋„ ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์— ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ์—ˆ๋‹ค.

์˜ˆ:

  • ํ…์ŠคํŠธ ํ•จ์˜(Textual Entailment) โ†’ ์ „์ œ(premise)์™€ ๊ฐ€์„ค(hypothesis)์„ ๊ตฌ๋ถ„์ž $๋กœ ์—ฐ๊ฒฐ: [p, $, h]
  • ์งˆ๋ฌธ-๋‹ต๋ณ€(Question Answering) โ†’ ๋ฌธ๋งฅ(context) + ์งˆ๋ฌธ(question) + ๋‹ต๋ณ€(answer)์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์—ฐ๊ฒฐ: [c, q, $, a]

4. ์„ฑ๋Šฅ ๋ฐ ํ•œ๊ณ„

  • GPT-1์€ ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.
  • ๊ทธ๋Ÿฌ๋‚˜ ๋ช‡ ๊ฐ€์ง€ ์ œํ•œ์ ๋„ ์žˆ์—ˆ๋‹ค.
    1. ๋ฐ˜๋ณต์ ์ธ ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Œ
    2. ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”์—์„œ๋Š” ์ผ๊ด€๋œ ์ถ”๋ก ์ด ์–ด๋ ค์›€
    3. ๊ธด ๋ฌธ์žฅ์ด๋‚˜ ๋‹จ๋ฝ์—์„œ๋Š” ๋ฌธ๋งฅ ์—ฐ๊ฒฐ์„ฑ์ด ๋ถ€์กฑ
    4. ์งง์€ ์‹œํ€€์Šค์—์„œ๋Š” ์œ ์ฐฝํ•˜์ง€๋งŒ, ๊ธด ์‹œํ€€์Šค์—์„œ๋Š” ์ผ๊ด€์„ฑ์ด ๋–จ์–ด์ง

GPT-2

GPT-2๋Š” GPT-1์˜ ํ›„์† ๋ชจ๋ธ๋กœ 2019๋…„ OpenAI์—์„œ ๋ฐœํ‘œ๋˜์—ˆ๋‹ค. GPT-2์˜ ๊ฐ€์žฅ ํฐ ํ˜์‹ ์€ ๋ฐ”๋กœ ์ง์ ‘์ ์ธ ์Šค์ผ€์ผ ์—…์ด์—ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์™€ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ ์•ฝ 10๋ฐฐ ์ฆ๊ฐ€ํ–ˆ๋‹ค.

์ฃผ์š” ํŠน์ง•

  1. ๋ฐ์ดํ„ฐ
    • GPT-2๋Š” 40GB์— ๋‹ฌํ•˜๋Š” ๋Œ€๊ทœ๋ชจ์ด์ž ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์ธ WebText๋กœ ํ•™์Šต๋˜์—ˆ๋‹ค.
    • WebText๋Š” Reddit์—์„œ ์นด๋ฅด๋งˆ ์ ์ˆ˜(Karma)๊ฐ€ 3 ์ด์ƒ์ธ ๊ฒŒ์‹œ๊ธ€๋“ค์„ ๋ฐ”ํƒ•์œผ๋กœ ์ˆ˜์ง‘ํ•œ ์•ฝ 4,500๋งŒ ๊ฐœ ์›นํŽ˜์ด์ง€๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค.
    • ์นด๋ฅด๋งˆ ์ ์ˆ˜๋Š” Reddit์˜ ํ’ˆ์งˆ ์ง€ํ‘œ์ด๋ฉฐ, ์ ์ˆ˜ 3 ์ด์ƒ์€ ํ•ฉ๋ฆฌ์ ์ธ ํ’ˆ์งˆ ์ˆ˜์ค€์„ ์˜๋ฏธํ•œ๋‹ค.
  2. ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜
    • GPT-2๋Š” 15์–ต ๊ฐœ(1.5B)์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ–๊ณ  ์žˆ์œผ๋ฉฐ, ์ด๋Š” GPT-1๋ณด๋‹ค 10๋ฐฐ ์ด์ƒ ํฐ ๊ทœ๋ชจ์ด๋‹ค.
    • ์—ฐ๊ตฌํŒ€์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ๊ฐ€์ง„ 4๊ฐ€์ง€ ๋ชจ๋ธ์„ ์‹คํ—˜ํ–ˆ๋‹ค.
      • 117M(GPT-1)
      • 345M
      • 762M
      • 1.5B(GPT-2)
    • ๊ทธ ๊ฒฐ๊ณผ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํด์ˆ˜๋ก ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.

์„ฑ๋Šฅ ๋ฐ ์žฅ์ 

  • GPT-2๋Š” GPT-1๋ณด๋‹ค ๋” ์ผ๊ด€์„ฑ ์žˆ๊ณ  ํ˜„์‹ค๊ฐ ์žˆ๋Š” ํ…์ŠคํŠธ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ–ˆ๋‹ค.
  • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์—์„œ ์ฐฝ์ž‘, ๋ฒˆ์—ญ, ๋ฌธ์žฅ ์ƒ์„ฑ ๋“ฑ์˜ ๋„๊ตฌ๋กœ ์œ ์šฉํ•˜๊ฒŒ ํ™œ์šฉ๋˜์—ˆ๋‹ค.
  • ํŠนํžˆ GPT-2๋Š” ๋‹ค์Œ ๋ถ„์•ผ์—์„œ ํ˜„์ €ํ•œ ๊ฐœ์„ ์„ ๋ณด์˜€๋‹ค.
    • ์žฅ๊ธฐ ์˜์กด์„ฑ ํฌ์ฐฉ ๋Šฅ๋ ฅ
    • ์ƒ์‹ ์ถ”๋ก 

์ œํ•œ ์‚ฌํ•ญ

  • ๋‹ค๋งŒ, GPT-2๋Š” ์ผ๋ถ€ ์ž‘์—…(์˜ˆ: ํ†กํ•ด, ์š”์•ฝ, ๋ฒˆ์—ญ)์—์„œ ์ตœ์‹  ์ตœ๊ณ  ์„ฑ๋Šฅ(state-of-the-art) ๋ชจ๋ธ์„ ์™„์ „ํžˆ ๋Šฅ๊ฐ€ํ•˜์ง€๋Š” ๋ชปํ–ˆ๋‹ค.

Zero-shot ํ•™์Šต์˜ ๋ŒํŒŒ๊ตฌ GPT-2์˜ ๊ฐ€์žฅ ํฐ ์„ฑ๊ณผ ์ค‘ ํ•˜๋‚˜๋Š” ์ œ๋กœ์ƒท ํ•™์Šต ๋Šฅ๋ ฅ์ด๋‹ค.

  • ์ œ๋กœ ์ƒท ํ•™์Šต์ด๋ž€, ๋ณ„๋„์˜ ํ›ˆ๋ จ ์—†์ด ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด ์ž‘์—…์„ ์ผ๋ฐ˜ํ™”ํ•˜์—ฌ ์ˆ˜ํ–‰ํ•˜๋Š” ๋Šฅ๋ ฅ์ด๋‹ค.
  • ์ด๋•Œ ๋ชจ๋ธ์€ ์ฃผ์–ด์ง„ ํ”„๋กฌํ”„ํŠธ๋‚˜ ์ง€์‹œ์–ด๋งŒ์œผ๋กœ ์ž‘์—…์„ ์ดํ•ดํ•ด์•ผํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด: ์˜์–ด ๋ฌธ์žฅ ๋‹ค์Œ์— โ€œGerman :โ€ ์ด๋ผ๋Š” ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด, ๋ชจ๋ธ์€ ์ด๊ฒƒ์ด ์˜์–ด โ†’ ๋…์ผ์–ด ๋ฒˆ์—ญ ์ž‘์—…์ž„์„ ์ถ”๋ก ํ•˜๊ณ  ๋…์ผ์–ด ๋ฒˆ์—ญ๋ฌธ์„ ์ƒ์„ฑํ•œ๋‹ค. GPT-2๋Š” ์ด๋ ‡๊ฒŒ ๋‹ค์Œ ์ž‘์—…๋“ค์„ ๋ช…์‹œ์ ์ธ ๊ฐ๋… ์—†์ด๋„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค.

  • ๊ธฐ๊ณ„ ๋ฒˆ์—ญ
  • ์š”์•ฝ
  • ๋…ํ•ด

์ œ๋กœ์ƒท ์„ฑ๋Šฅ๊ณผ ๋ชจ๋ธ ์šฉ๋Ÿ‰์˜ ๊ด€๊ณ„

  • ์—ฐ๊ตฌ ๊ฒฐ๊ณผ, ๋ชจ๋ธ์˜ ์šฉ๋Ÿ‰์ด ์ปค์งˆ์ˆ˜๋ก ์ œ๋กœ์ƒท ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ์€ ๋กœ๊ทธ-์„ ํ˜• ๊ด€๊ณ„๋กœ ํ–ฅ์ƒ๋œ๋‹ค๋Š” ์‚ฌ์‹ค์ด ๋ฐํ˜€์กŒ๋‹ค.
  • GPT-2๋Š” ๋” ํฐ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋” ๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ํ•™์Šตํ• ์ˆ˜๋ก ์ž‘์—…์„ ์ดํ•ดํ•˜๊ณ  ์ˆ˜ํ–‰ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํ–ฅ์ƒ๋œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

GPT-3/3.5/4

GPT-3๋Š” ์„ธ ๋ฒˆ์งธ ๋ฒ„์ „์˜ GPT ๋ชจ๋ธ๋กœ GPT-2์™€ ๋น„๊ตํ•ด ๊ทœ๋ชจ, ๋Šฅ๋ ฅ, ์œ ์—ฐ์„ฑ ๋ฉด์—์„œ ํš๊ธฐ์ ์ธ ์ง„ํ™”๋ฅผ ์ด๋ค˜๋‹ค.

GPT-3

1. ์••๋„์ ์ธ ๊ทœ๋ชจ ์ฐจ์ด

  • GPT-3 : 175B(1750์–ต ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ)
  • GPT-2 : 1.5B(15์–ต ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ)
  • GPT-3์˜ ์ด ์—„์ฒญ๋‚œ ๊ทœ๋ชจ ๋•๋ถ„์—, ๋ชจ๋ธ์€ ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ์ €์žฅํ•˜๊ณ  ํšŒ์ƒํ•  ์ˆ˜ ์žˆ๊ณ  ๋” ์ •๊ตํ•œ ๋ช…๋ น์–ด๋ฅผ ์ดํ•ดํ•˜๋ฉฐ, ๋” ์ผ๊ด€์„ฑ ์žˆ๊ณ  ๋งฅ๋ฝ์— ๋งž๋Š” ํ…์ŠคํŠธ๋ฅผ ๊ธด ๋ฌธ์žฅ์—์„œ๋„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค.

2. Few-shot, Zero-shot ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ

  • GPT-2๋Š” ํŠน์ • ์ž‘์—…์„ ์ž˜ ์ˆ˜ํ–‰ํ•˜๋ ค๋ฉด ์ถ”๊ฐ€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋กœ ํŒŒ์ธํŠœ๋‹์ด ํ•„์š”ํ–ˆ๋‹ค.
  • ํ•˜์ง€๋งŒ GPT-3๋Š” ๋ช‡ ๊ฐœ์˜ ์˜ˆ์‹œ๋งŒ ๋ณด์—ฌ์ฃผ๊ฑฐ๋‚˜(Few-shot), ์•„์˜ˆ ์˜ˆ์‹œ ์—†์ด ์ง€์‹œ๋ฌธ๋งŒ์œผ๋กœ๋„ ์ž‘์—…์„ ์ดํ•ดํ•˜๊ณ  ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.(Zero-shot)
  • ์ด๋Š” GPT-3๊ฐ€ ๋” ์œ ์—ฐํ•˜๊ณ  ๋™์ ์ธ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”์—ˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๋ฉฐ, ์ž‘์—…๋ณ„ ํŒŒ์ธํŠœ๋‹์˜ ํ•„์š”์„ฑ์„ ์ค„์—ฌ์ค€๋‹ค.

3. ๋” ๋„“์€ ๋ฒ”์šฉ์„ฑ(Generallzation) GPT-3๋Š” ๊ทธ ๊ฑฐ๋Œ€ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์™€ ๋‹ค์–‘ํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ ๋•๋ถ„์—, ๋ฒˆ์—ญ, ์งˆ๋ฌธ ์‘๋‹ต, ๊ธ€์“ฐ๊ธฐ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์—์„œ ๊ธฐ๋ณธ ์ƒํƒœ ๊ทธ๋Œ€๋กœ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

InstructGPT(GPT-3 ๊ธฐ๋ฐ˜ ํŒŒ์ธํŠœ๋‹ ๋ชจ๋ธ)

  • InstructGPT๋Š” GPT-3์— ์ง€์‹œ๋ฌธ์„ ๋”ฐ๋ฅด๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ๋œ ๋ฒ„์ „์ด๋‹ค.
  • ์‚ฌ๋žŒ์˜ ์‹œ๋ฒ”์„ ๋‹ด์„ ๋ฐ์ดํ„ฐ๋กœ ๊ฐ๋… ํ•™์Šต์„ ์ง„ํ–‰ํ•œ ํ›„, ๊ทธ ๊ฒฐ๊ณผ๋ฌผ์„ ์‚ฌ๋žŒ์ด ํ‰๊ฐ€ํ•˜๊ณ  ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๊ฐ•ํ™”ํ•™์Šต์„ ์ ์šฉํ•œ๋‹ค.
  • ์ด๋กœ ์ธํ•ด ๋ชจ๋ธ์€ ๋” ์ž˜ ์ง€์‹œ๋ฅผ ๋”ฐ๋ฅด๊ณ , ๋” ์ •ํ™•ํ•˜๊ณ  ์ง„์‹ค๋œ ๋‹ค๋ณ€์„ ๋‚ด๋ฉฐ, ์œ ํ•ด์„ฑ๋„ ์ค„์—ˆ๋‹ค.
  • ๋†€๋ž๊ฒŒ๋„, ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ 13์–ต ๋ฐ–์— ์•ˆ๋˜๋Š” InstructGPT๊ฐ€ 175B์งœ๋ฆฌ GPT-3๋ณด๋‹ค ์‚ฌ๋žŒ ํ‰๊ฐ€์—์„œ ๋” ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค.

GPT-3.5 & GPT-3.5 Turbo

  • GPT-3.5๋Š” GPT-3๋ณด๋‹ค ๋” ๋ฐœ์ „๋œ ์„ฑ๋Šฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ํŠนํžˆ ์ฝ”๋“œ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํ–ฅ์ƒ๋˜์—ˆ๋‹ค. ๋˜ํ•œ ๋Œ€ํ™”ํ˜• ์ตœ์ ํ™”๊ฐ€ ๋˜์–ด ์žˆ์–ด ์ฑ—๋ด‡์— ์ ํ•ฉํ•˜๋‹ค.
  • ๋ฌธ๋งฅ ๊ธธ์ด
    • ์ž…๋ ฅ ์ตœ๋Œ€ : 16,385 ํ† ํฐ
    • ์ถœ๋ ฅ ์ตœ๋Œ€ : 4,096 ํ† ํฐ

GPT-4

GPT-4๋Š” GPT-3.5์˜ ์—ฐ์žฅ์„ ์ƒ์— ์žˆ๋Š” ๋Œ€ํ˜• ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(Multimodal)์ด๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฒ˜๋ฆฌ

  • ํ…์ŠคํŠธ + ์ด๋ฏธ์ง€๋ฅด ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๊ณ , ํ…์ŠคํŠธ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

์„ฑ๋Šฅ ๋ฐ ํŠน์ง•

  • ๋” ๋„“์€ ์ผ๋ฐ˜ ์ƒ์‹
  • ๊ณ ๊ธ‰ ์ถ”๋ก  ๋Šฅ๋ ฅ
  • ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ๋ณต์žกํ•œ ์ž‘์—… ์ˆ˜ํ–‰ ๊ฐ€๋Šฅ
    • ์ˆ˜ํ•™, ํ”„๋กœ๊ทธ๋ž˜๋ฐ, ์‹œ๊ฐ ์ •๋ณด ํ•ด์„, ์˜ํ•™, ๋ฒ•๋ฅ , ์‹ฌ๋ฆฌํ•™ ๋“ฑ
  • ๋ฌธ๋งฅ ๊ธธ์ด ์ž…๋ ฅ ์ตœ๋Œ€ : 128,000 ํ† ํฐ
  • ๋ฌธ๋งฅ ๊ธธ์ด ์ถœ๋ ฅ ์ตœ๋Œ€ : 4,096 ํ† ํฐ

GPT-4๋Š” ๋•Œ๋•Œ๋กœ ์ธ๊ฐ„ ์ด์ƒ์˜ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์ด์ „ ๋ชจ๋ธ(GPT-3.5 ํฌํ•จ)์„ ์ƒ๋‹นํžˆ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

LaMDA

LaMDA๋Š” Google์ด ๊ฐœ๋ฐœํ•œ Language Model for Dialogue Applications์˜ ์•ฝ์ž๋กœ, ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ๋ถ„์•ผ์— ๋Œ€ํ•œ ๋˜ ๋‹ค๋ฅธ ๊ธฐ์—ฌ์ด๋ฉฐ, ํŠนํžˆ ์ž์œ ๋กœ์šด ๋Œ€ํ™”๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ์„ค๊ณ„๋œ ๋ชจ๋ธ์ด๋‹ค.

์ „ํ†ต์ ์ธ ์ฑ—๋ด‡๊ณผ์˜ ์ฐจ์ด์  ๊ธฐ์กด์˜ ์ฑ—๋ด‡์€ ๋ณดํ†ต ์ œํ•œ๋œ ์ฃผ์ œ๋‚˜ ๋ฏธ๋ฆฌ ์ •์˜๋œ ๋ฒ”์œ„ ๋‚ด์—์„œ ์ž‘๋™ํ•˜์ง€๋งŒ, LaMDA๋Š” ๋‹ค์–‘ํ•œ ์ฃผ์ œ๋ฅผ ํญ๋„“๊ฒŒ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ณด๋‹ค ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ์œ ์ฐฝํ•œ ๋Œ€ํ™”๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

ํ›ˆ๋ จ ๋ฐฉ์‹ ๋ฐ ๋ชฉ์ 

  • LaMDA๋Š” ๋Œ€ํ™” ์ค‘์‹ฌ์˜ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ๋˜์—ˆ๋‹ค.
  • ์ด๋Š” ๋‹จ์ˆœํžˆ ๋‹จ๋‹ตํ˜• ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋Œ€ํ™”๋ฅผ ๊ณ„์† ์ด์–ด๊ฐˆ ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”๊ฒŒ ๋œ๋‹ค.
  • ์‚ฌ์šฉ์ž๊ฐ€ ๋ชจ๋ธ๊ณผ ์‹ฌํ™”๋˜๊ณ  ํƒ๊ตฌ์ ์ธ ๋Œ€ํ™”๋ฅผ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค.

GPT ๋ชจ๋ธ๊ณผ์˜ ๋น„๊ต

  • GPT ์‹œ๋ฆฌ์ฆˆ๋Š” ํ…์ŠคํŠธ ์ƒ์„ฑ, ์ฝ”๋“œ ์ž‘์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ•์กฐํ•œ๋‹ค.
  • ๋ฐ˜๋ฉด LaMDA๋Š” ๋Œ€ํ™”์˜ ๊นŠ์ด์™€ ํ๋ฆ„ ์œ ์ง€์— ๋” ์ง‘์ค‘ํ•œ๋‹ค.
    • GPT๋Š” ๊ธด ๊ธ€ ์ž‘์„ฑ๊ณผ ๋‹ค์ค‘ ์ž‘์—… ์ฒ˜๋ฆฌ์— ๊ฐ•์ ์„ ๋ณด์ด๋ฉฐ, LaMDA๋Š” ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅํ•˜๊ณ  ํ’๋ถ€ํ•œ ๋Œ€ํ™” ํ๋ฆ„์„ ๋ชจ๋ฐฉํ•˜๋Š” ๋ฐ์— ์ดˆ์ ์„ ๋‘”๋‹ค.

Gopher

Gopher๋Š” 2021๋…„์— DeepMind๊ฐ€ ๊ฐœ๋ฐœํ•œ ๋””์ฝ”๋” ์ „์šฉ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜์˜ 2800์–ต ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์ด๋‹ค. ์ด ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ž‘์—…๋“ค์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ํ…์ŠคํŠธ ๋ฒˆ์—ญ
  • ์–ธ์–ด ๋ฒˆ์—ญ
  • ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ์ฐฝ์ž‘ ์ฝ˜ํ…์ธ  ์ž‘์„ฑ
  • ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์ •๋ณด์„ฑ ์‘๋‹ต ์ œ๊ณต

์ฃผ์š” ํŠน์ง•

1. ๋ฐ์ดํ„ฐ์…‹ ํ’ˆ์งˆ ํ–ฅ์ƒ - MassiveText๋ผ๋Š” ๊ณ ํ’ˆ์งˆ์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉ - ์ด 10TB, 24.5์–ต ๊ฐœ ๋ฌธ์„œ ํฌํ•จ (์ถœ์ฒ˜: ์›นํŽ˜์ด์ง€, ์ฑ…, ๋‰ด์Šค, GitHub ์ฝ”๋“œ ๋“ฑ) - ํ•™์Šต์—๋Š” ์ „์ฒด ๋ฐ์ดํ„ฐ์˜ 12%(3000์–ต ํ† ํฐ)๋งŒ ์‚ฌ์šฉ๋จ - ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ •์ œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•จ - ์ค‘๋ณต๋œ ํ…์ŠคํŠธ ์ œ๊ฑฐ - ์œ ์‚ฌํ•œ ๋ฌธ์„œ ์ œ๊ฑฐ

2. ์ตœ์ ํ™” ๊ธฐ๋ฒ•

  • 1,500 ์Šคํ… ๋™์•ˆ ํ•™์Šต๋ฅ  ์›Œ๋ฐ์—…์„ ์‚ฌ์šฉํ•˜๊ณ  ์ดํ›„์—๋Š” ์ฝ”์‚ฌ์ธ ์Šค์ผ€์ค„๋กœ ํ•™์Šต๋ฅ  ๊ฐ์†Œ
  • ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ํ•™์Šต๋ฅ ์€ ๋‚ฎ์ถ”๊ณ , ๋ฐฐ์น˜๋‹น ํ† ํฐ ์ˆ˜๋Š” ๋Š˜๋ฆฌ๋Š” ์ „๋žต์„ ์‚ฌ์šฉ
  • ๊ทธ๋ž˜๋””์–ธํŠธ ํด๋ฆฌํ•‘(gradient clipping)๋„ ์ ์šฉ
    • ์ „์ฒด ๊ทธ๋ž˜๋””์–ธํŠธ ๋…ธ๋ฆ„(global gradient norm) ๊ธฐ์ค€์œผ๋กœ ์ตœ๋Œ€ 1๋กœ ์ œํ•œ
    • ํ›ˆ๋ จ ์•ˆ์ •์„ฑ ํ–ฅ์ƒ์— ๋„์›€

3. ํ‰๊ฐ€ ๊ฒฐ๊ณผ Gopher๋Š” ์ˆ˜ํ•™, ์ƒ์‹, ๋…ผ๋ฆฌ ์ถ”๋ก , ๊ณผํ•™ ์ง€์‹, ์œค๋ฆฌ, ๋…ํ•ด ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ํ‰๊ฐ€๋˜์—ˆ๊ณ  ๊ทธ ์ค‘ 81%์˜ ์ž‘์—…์—์„œ ๊ธฐ์กด ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค.

  • ์ง€์‹ ๊ธฐ๋ฐ˜ ์ž‘์—…์—์„œ ๊ฐ•ํ•œ ์„ฑ๋Šฅ
  • ๊ทธ๋Ÿฌ๋‚˜ ์ถ”๋ก  ๊ธฐ๋ฐ˜ ์ž‘์—…์—์„œ๋Š” ์–ด๋ ค์›€์„ ๋ณด์ž„

4. ๋ชจ๋ธ ํฌ๊ธฐ์™€ ์„ฑ๋Šฅ ๊ด€๊ณ„

  • ์—ฐ๊ตฌ์ง„์€ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ์‹คํ—˜ํ–ˆ๋‹ค.
  • ๋…ผ๋ฆฌ ์ถ”๋ก ๊ณผ ๋…ํ•ด์—๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ ์ฆ๊ฐ€๊ฐ€ ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์œผ๋กœ ์ด์–ด์ง
  • ๋ฐ˜๋ฉด, ์ผ๋ฐ˜ ์ƒ์‹์ฒ˜๋Ÿผ ๋‹จ์ˆœํ•œ ์ž‘์—…์—๋Š” ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋Š˜๋ ค๋„ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๊ฑฐ์˜ ์—†์Œ(์ ์ฐจ ์ •์ฒด)

GLaM

GLaM์€ Google์ด ๊ฐœ๋ฐœํ•œ Generalist Language Model๋กœ ์ตœ์ดˆ์˜ ํšŒ์†Œ ํ™œ์„ฑํ™”(sparsely-activated) Mixture-of-Experts ์–ธ์–ด ๋ชจ๋ธ์ด๋‹ค.

Mixture-of-Experts ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ํŠน์ง•

  • Mixture-of-Experts(MoE) ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ์ „์ฒด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ๋งค์šฐ ํฌ๋”๋ผ๋„, ์ž…๋ ฅ ํ† ํฐ๋งˆ๋‹ค ์ผ๋ถ€ ์ „๋ฌธ๊ฐ€(expert)๋งŒ ํ™œ์„ฑํ™”๋˜๋ฏ€๋กœ ๊ณ„์‚ฐ ํšจ์œจ์ด ๋งค์šฐ ๋›ฐ์–ด๋‚ฌ๋‹ค.

GLaM์˜ ์„ฑ๋Šฅ ๋ฐ ํšจ์œจ

  • ์ด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ : 1.2์กฐ(1.2 trillion)
  • ํ•˜์ง€๋งŒ ํ•œ ๋ฒˆ์˜ ์ž…๋ ฅ ํ† ํฐ ์ฒ˜๋ฆฌ ์‹œ์—๋Š” ์ผ๋ถ€ ํŒŒ๋ผ๋ฏธํ„ฐ(์ „๋ฌธ๊ฐ€๋“ค)๋งŒ ์‚ฌ์šฉ๋˜๋ฏ€๋กœ, ์ „์ฒด ๋ชจ๋ธ์„ ๋ชจ๋‘ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ํšจ์œจ์ ์ด๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ GLaM์€

  • GPT-3 ํ›ˆ๋ จ์— ์‚ฌ์šฉ๋œ ์—๋„ˆ์ง€์˜ 1/3๋งŒ ์‚ฌ์šฉ
  • GPT-3 ์ถ”๋ก  ์‹œ ํ•„์š”ํ•œ FLOPs์˜ ์ ˆ๋ฐ˜๋งŒ ์‚ฌ์šฉ
  • ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  GPT-3๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑ

Chinchilla

2022๋…„๊นŒ์ง€ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์€ ์ฃผ๋กœ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํ‚ค์šฐ๋Š” ๋ฐฉ์‹์œผ๋กœ ํ™•์ •๋˜์–ด ์™”๋‹ค. ์ด๋•Œ ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์…‹์€ ์ง€๊ธˆ ๊ธฐ์ค€์œผ๋กœ ๋ณด๋ฉด ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์•˜์œผ๋ฉฐ, ๊ฐ€์žฅ ํฐ ๋ชจ๋ธ์กฐ์ฐจ๋„ ์•ฝ 3,000์–ต ํ† ํฐ ์ •๋„์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.

๊ธฐ์กด ํ™•์žฅ ๋ฐฉ์‹์˜ ๊ธฐ์ค€: Kaplan et al. ์—ฐ๊ตฌ

  • Kaplan et al. (2020) ์—ฐ๊ตฌ๋Š” ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ(ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ ์†์‹ค ๊ธฐ์ค€)์ด ๊ณ„์‚ฐ ์ž์›, ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํ„ฐ ํฌ๊ธฐ์™€ ์–ด๋–ป๊ฒŒ ์—ฐ๊ด€๋˜๋Š”์ง€๋ฅผ ๋ถ„์„ํ–ˆ๋‹ค.
  • ๊ทธ๋“ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ œ์•ˆํ–ˆ๋‹ค.
    • ๊ณ„์‚ฐ ์ž์›(C)๋ฅผ 100๋ฐฐ ๋Š˜๋ฆฌ๋ฉด:
    • ๋ชจ๋ธ ํฌ๊ธฐ๋Š” ์•ฝ 28.8๋ฐฐ ๋Š˜๋ ค์•ผ ํ•จ โ†’ N_opt โˆ C^0.73
    • ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋Š” 3.5๋ฐฐ๋งŒ ๋Š˜๋ฆฌ๋ฉด ๋จ โ†’ D_opt โˆ C^0.27

์ฆ‰, ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์šฐ์„ ์ ์œผ๋กœ ํ‚ค์šฐ๋Š” ์ „๋žต์ด ๊ธฐ์กด์—๋Š” ๊ถŒ์žฅ๋˜์—ˆ๋‹ค.

Chinchilla ๋…ผ๋ฌธ์˜ ํ˜์‹ : ํ™•์žฅ ๋ฒ•์น™ ์žฌ๊ฒ€ํ† 

  • DeepMind์˜ Chinchilla ๋…ผ๋ฌธ(2022)์—์„œ๋Š” ์ด ํ™•์žฅ ๋ฒ•์น™์„ ๋‹ค์‹œ ๊ฒ€ํ† ํ–ˆ๋‹ค.
  • ์„ธ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ, ๊ณ„์‚ฐ ์ž์›์ด ๋Š˜์–ด๋‚ ์ˆ˜๋ก ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋ฅผ ๊ฑฐ์˜ ๋น„์Šทํ•˜๊ฒŒ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์ด ์ตœ์ ์ด๋ผ๋Š” ๊ฒฐ๋ก ์„ ๋‚ด๋ ธ๋‹ค.
  • ์ฆ‰, ๊ณ„์‚ฐ ์ž์›์„ 100๋ฐฐ ๋Š˜๋ฆฌ๋ฉด, ๋ชจ๋ธ ํฌ๊ธฐ 10๋ฐฐ ์ฆ๊ฐ€, ๋ฐ์ดํ„ฐ ํฌ๊ธฐ 10๋ฐฐ ์ฆ๊ฐ€ โ†’ ๊ท ํ˜• ์žˆ๊ฒŒ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค๋Š” ๊ฒฐ๋ก ์ด๋‹ค.

Chinchilla ๋ชจ๋ธ ์ž์ฒด

  • DeepMind๋Š” ๊ธฐ์กด์˜ Gopher(280B ํŒŒ๋ผ๋ฏธํ„ฐ)์™€ ๋™์ผํ•œ ๊ณ„์‚ฐ ์ž์›์„ ์‚ฌ์šฉํ•˜์—ฌ 70B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์ธ Chinchilla๋ฅผ ํ›ˆ๋ จํ–ˆ๋‹ค.
  • ๊ฒฐ๊ณผ์ ์œผ๋กœ Chinchilla๋Š” Goper(280B), GPT-3(175B), Megatron-Turing NLG(530B)๋ฅผ ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—์„œ ์ผ๊ด€๋˜๊ฒŒ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค.
  • Gopher๋ณด๋‹ค ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ 4๋ฐฐ ์ž‘๊ธฐ ๋•Œ๋ฌธ์—, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๊ณผ ์ถ”๋ก  ๋น„์šฉ๋„ ๋” ์ ๋‹ค.

LLM ๊ฐœ๋ฐœ์˜ ํ๋ฆ„ ๋ณ€ํ™” Chinchilla์˜ ๋ฐœ๊ฒฌ ์ดํ›„, LLM ๊ฐœ๋ฐœ ์ „๋žต์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ณ€ํ™”ํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค.

  • ๋‹จ์ˆœํžˆ ๋ชจ๋ธ๋งŒ ํ‚ค์šฐ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ ๋˜ํ•œ ํ’ˆ์งˆ์„ ์œ ์ง€ํ•˜๋ฉฐ ํ•จ๊ป˜ ํ™•์žฅํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ–ˆ๋‹ค.
  • ํ•˜์ง€๋งŒ ์ด ์ถ”์„ธ๋ฅผ ๊ณ„์† ๋”ฐ๋ผ๊ฐ€๋ฉด, ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ ์ž์ฒด๊ฐ€ ๋ถ€์กฑํ•ด์งˆ ๊ฐ€๋Šฅ์„ฑ์ด ์ƒ๊ธด๋‹ค.
  • ์ด์— ๋”ฐ๋ผ Muenninghoff et al.์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์ œํ•œ๋œ ์ƒํ™ฉ์—์„œ์˜ ํ™•์žฅ ๋ฒ•์น™์„ ์—ฐ๊ตฌํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค.

PaLM(Pathways Language Model)

PaLM์€ Google AI๊ฐ€ ๊ฐœ๋ฐœํ•œ 5400์–ต ๊ฐœ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋Œ€ํ˜• ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ์ด๋‹ค. ํ…์ŠคํŠธ์™€ ์ฝ”๋“œ๋กœ ์ด๋ฃจ์–ด์ง„ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ์ƒ์‹ ์ถ”๋ก 
  • ์‚ฐ์ˆ  ์ถ”๋ก 
  • ๋†๋‹ด ์„ค๋ช…
  • ์ฝ”๋“œ ์ƒ์„ฑ
  • ๋ฒˆ์—ญ ๋“ฑ

๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ

  • PaLM์€ ์ถœ์‹œ ๋‹น์‹œ, GLUE, SuperGLUE์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์–ธ์–ด ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ์‹  ์ตœ๊ณ  ์„ฑ๋Šฅ(state-of-the-art)์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

ํšจ์œจ์ ์ธ ํ™•์žฅ - Pathways ์‹œ์Šคํ…œ

  • PaLM์˜ ์ค‘์š”ํ•œ ํŠน์ง• ์ค‘ ํ•˜๋‚˜๋Š” ํšจ์œจ์ ์ธ ํ™•์žฅ์„ฑ์ด๋‹ค.
  • Google์ด ๊ฐœ๋ฐœํ•œ Pathways ์‹œ์Šคํ…œ ๋•๋ถ„์— ๊ฐ€๋Šฅํ•œ๋ฐ, ์ด ์‹œ์Šคํ…œ์€ 2๊ฐœ์˜ TPU v4 Pods์— ํ›ˆ๋ จ ์ž‘์—…์„ ๋ถ„์‚ฐ์‹œ์ผœ ๋Œ€ํ˜• ๋ชจ๋ธ์„ ๋น ๋ฅด๊ณ  ์•ˆ์ •์ ์œผ๋กœ ํ›ˆ๋ จํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ๋‹ค.

PaLM 2 (2023๋…„ 5์›” ๊ณต๊ฐœ)

PaLM 2๋Š” PaLM์˜ ํ›„์† ๋ชจ๋ธ๋กœ, 2023๋…„ 5์›”์— ๊ณต๊ฐœ๋˜์—ˆ๋‹ค.

์ฃผ์š” ํŠน์ง•

  • ๋ชจ๋ธ ๊ตฌ์กฐ์™€ ํ›ˆ๋ จ ๋ฐฉ์‹์ด ํ–ฅ์ƒ๋จ
  • ์ด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” ๋” ์ ์Œ
  • ์„ฑ๋Šฅ์€ ํ–ฅ์ƒ๋จ

๋›ฐ์–ด๋‚œ ์ž‘์—… ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ PaLM 2๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ณ ๊ธ‰ ์ถ”๋ก  ์ž‘์—…์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

  • ์ฝ”๋“œ ์ƒ์„ฑ
  • ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ
  • ๋ถ„๋ฅ˜
  • ์งˆ๋ฌธ-์‘๋‹ต
  • ๋ฒˆ์—ญ

์‚ฐ์—…์  ํ™œ์šฉ

  • PaLM 2๋Š” PaLM๋ณด๋‹ค ๋” ํšจ์œจ์ ์ด๋ฉฐ, Google์ด Google Cloud Generative AI ์ œํ’ˆ๊ตฐ์— ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ์ƒ์—…์šฉ ๋ชจ๋ธ์˜ ๊ธฐ๋ฐ˜์ด ๋˜์—ˆ๋‹ค.

Gemini

์•„ํ‚คํ…์ฒ˜ ๋ฐ ํŠน์ง•

  • ํŠธ๋žœ์Šคํฌ๋จธ ๋””์ฝ”๋” ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์ถ•๋˜์—ˆ์œผ๋ฉฐ, Google์˜ TPU์—์„œ ํšจ์œจ์ ์ธ ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๊ฐœ์„ ๋˜์—ˆ๋‹ค.
  • ํ˜„์žฌ ๋ฒ„์ „์—์„œ๋Š” ์ตœ๋Œ€ 200๋งŒ ํ† ํฐ๊นŒ์ง€ ์ž…๋ ฅ์„ ์ง€์›ํ•œ๋‹ค.
  • Multi-Query Attention ๋ฐ Mixture of Experts(MoE) ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•ด ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ–ˆ๋‹ค.

ํ•™์Šต ํ™˜๊ฒฝ

  • TPUv5e ๋ฐ TPUv4์—์„œ ํ•™์Šต๋˜์—ˆ๊ณ  ํ•™์Šต ๋ฐ์ดํ„ฐ๋Š” ์›น ๋ฌธ์„œ, ์ฑ…, ์ฝ”๋“œ, ์ด๋ฏธ์ง€, ์˜ค๋””์˜ค, ๋น„๋””์˜ค ๋“ฑ์œผ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ๋‹ค.

Chinchilla ๋ฐฉ์‹์— ๋”ฐ๋ผ, ํฐ ๋ชจ๋ธ์€ ๊ณ„์‚ฐ๋Ÿ‰์— ์ตœ์ ํ™”๋œ ํ† ํฐ ์ˆ˜๋กœ ํ•™์Šต๋˜๊ณ , ์ž‘์€ ๋ชจ๋ธ์€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์œ„ํ•ด ๋” ๋งŽ์€ ํ† ํฐ์œผ๋กœ ํ•™์Šต๋œ๋‹ค.

๋ชจ๋ธ ๊ฐœ์—ด

  1. Gemini Ultra
    • ๊ณ ๋‚œ๋„ ์ž‘์—… ์ „์šฉ
    • 32๊ฐœ ๋ฒค์น˜๋งˆํฌ ์ค‘ 30๊ฐœ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ(state-of-the-art) ๋‹ฌ์„ฑ
  2. Gemini Pro
    • ๋Œ€๊ทœ๋ชจ ๋ฐฐํฌ์— ์ตœ์ ํ™”๋œ ๋ฒ„์ „
  3. Gemini Nano
    • ๊ธฐ๊ธฐ ๋‚ด(on-device) ์‹คํ–‰์šฉ์œผ๋กœ ์„ค๊ณ„
    • ๊ฒฝ๋Ÿ‰ ๋ชจ๋ธ์ด์ง€๋งŒ ์š”์•ฝ, ๋…ํ•ด ๋“ฑ์—์„œ ๋งค์šฐ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ
  4. Gemini Flash
    • ๊ฐ€์žฅ ๋น ๋ฅธ ๋ชจ๋ธ
    • 1๋ฐฑ๋งŒ ํ† ํฐ ์ž…๋ ฅ์„ ์ง€์›ํ•˜๋ฉฐ, ๊ณ ๋นˆ๋„ ์ž‘์—…์— ์ ํ•ฉ
    • ๊ฒฝ๋Ÿ‰ํ˜•์ด์ง€๋งŒ ๊ฐ•๋ ฅํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  ๋Šฅ๋ ฅ ๋ณด์œ 

Gemini 1.5 Pro (2024๋…„ ์ดˆ ๊ณต๊ฐœ)

  • ๊ณ ํšจ์œจ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ MoE ๋ชจ๋ธ
  • ์ˆ˜๋ฐฑ๋งŒ ํ† ํฐ์„ ๊ธฐ์–ตํ•˜๊ณ , ๊ทธ ์œ„์—์„œ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ์Œ
    • ๊ธด ๋ฌธ์„œ๋“ค, ์˜ค๋””์˜ค/๋น„๋””์˜ค ๋“ฑ๋„ ํฌํ•จ

์ฃผ์š” ๋Šฅ๋ ฅ

  • ์ฝ”๋“œ ์ดํ•ด : ๋ฐฉ๋Œ€ํ•œ ์ฝ”๋“œ๋ฒ ์ด์Šค ๋ถ„์„ ๋ฐ ๊ณ ๊ธ‰ ์งˆ๋ฌธ ์‘๋‹ต
  • ์–ธ์–ด ํ•™์Šต : ํ•™์Šต ์‹œ ๋ณธ ์  ์—†๋Š” ์–ธ์–ด๋„, ์ฐธ๊ณ  ์ž๋ฃŒ๋งŒ์œผ๋กœ ํ•™์Šต ๊ฐ€๋Šฅ
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ถ”๋ก  : ๊ทธ๋ฆผ์„ ๋ณด๊ณ  ์†Œ์„ค ์† ์žฅ๋ฉด์„ ์ฐพ์•„๋‚ผ ์ˆ˜ ์žˆ์Œ
  • ๋น„๋””์˜ค ์ดํ•ด : ์˜ํ™” ์ „์ฒด๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์‹œ๊ฐ„๋Œ€๋ณ„๋กœ ์ •ํ™•ํ•˜๊ฒŒ ์‘๋‹ต ๊ฐ€๋Šฅ

์„ฑ๋Šฅ

  • ์ตœ๋Œ€ 530,000 ํ† ํฐ : 100% ์ •๋ณด ๊ฒ€์ƒ‰ ์„ฑ๊ณต
  • 100๋งŒ ํ† ํฐ : 99.7% ์ •๋ณด ๊ฒ€์ƒ‰ ์„ฑ๊ณต
  • 1์ฒœ๋งŒ ํ† ํฐ : 99.2% ์ •ํ™•๋„ ์œ ์ง€

๋ณต์žกํ•œ ์ง€์‹œ ์ˆ˜ํ–‰

  • 406๊ฐœ์˜ ๋‹ค๋‹จ๊ณ„ ์ง€์‹œ ํ…Œ์ŠคํŠธ์—์„œ ์ด์ „ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์›”๋“ฑํžˆ ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ
  • 90% ์ง€์‹œ ์ •ํ™•ํžˆ ์ˆ˜ํ–‰, 66%๋Š” ์™„์ „ํžˆ ์™„๋ฃŒ

Gemini 2.0(2024๋…„ ๋ง ๊ณต๊ฐœ)

๐Ÿ”น Gemini 2.0 Flash

  • ์†๋„์™€ ํšจ์œจ์„ฑ์— ์ดˆ์ 
  • 1.5 Pro๋ณด๋‹ค ๋” ๋น ๋ฅด๋ฉด์„œ๋„ ๋†’์€ ํ’ˆ์งˆ ์œ ์ง€
  • ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ, ์ฝ”๋“œ ์ƒ์„ฑ, ๋น„๋””์˜ค ๋ถ„์„, ๊ณต๊ฐ„ ์ถ”๋ก (Spatial Reasoning) ๋“ฑ ํ–ฅ์ƒ
  • ํŠนํžˆ ์ž‘์€ ๊ฐ์ฒด ์ธ์‹ ๋ฐ ์บก์…˜ ์ƒ์„ฑ ๋Šฅ๋ ฅ ๊ฐ•ํ™”

๐Ÿ”น Gemini 2.0 Pro

  • ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๊ณ ์„ฑ๋Šฅ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฒ”์šฉ ๋ชจ๋ธ
  • ์›๋ž˜์˜ Gemini Pro๋ณด๋‹ค ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ ํ–ฅ์ƒ๋œ ์„ฑ๋Šฅ ์ œ๊ณต

๐Ÿ”น Gemini 2.0 Nano

  • ๋ชจ๋ฐ”์ผ ๋“ฑ ๊ธฐ๊ธฐ ๋‚ด(on-device) ์‹คํ–‰ ์ตœ์ ํ™”
  • ์†๋„์™€ ์ž์› ํšจ์œจ์„ฑ์ด ๊ฐ•์ 

๐Ÿ”น Gemini 2.0 Flash Thinking Experimental

  • ๊ณ ์„ฑ๋Šฅ ์ถ”๋ก  ์ „์šฉ ์‹คํ—˜ ๋ชจ๋ธ
  • โ€œ์ƒ๊ฐ ๊ณผ์ •์„ ์‹œ๊ฐ์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ๋Š”โ€ ํ•ด์„ค ๊ธฐ๋Šฅ ํฌํ•จ
  • ์ˆ˜ํ•™, ๊ณผํ•™ ๋“ฑ ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ
  • ์ž…๋ ฅ: ํ…์ŠคํŠธ + ์ด๋ฏธ์ง€
  • ์ถœ๋ ฅ: ํ…์ŠคํŠธ
  • ์ง€์›: ์ตœ๋Œ€ 100๋งŒ ํ† ํฐ ์ž…๋ ฅ, 64,000 ํ† ํฐ ์ถœ๋ ฅ
  • ์ฝ”๋“œ ์‹คํ–‰ ๊ฐ€๋Šฅ, ์ง€์‹ ์ปคํŠธ์˜คํ”„: 2024๋…„ 8์›”
  • ์ง€์—ฐ(latency)๋ณด๋‹ค ์ •ํ™•์„ฑ์ด ์ค‘์š”ํ•œ ์ž‘์—…์— ์ ํ•ฉ
  • Google AI Studio, Gemini API, Vertex AI์—์„œ ์ œ๊ณต (์‹คํ—˜์  ์ œ๊ณต ์ค‘)

๐ŸŒŸ Google์˜ ์˜คํ”ˆ ์–ธ์–ด ๋ชจ๋ธ ์‹œ๋ฆฌ์ฆˆ โ€“ Gemma

๐Ÿงฌ ๊ณตํ†ต ๊ธฐ๋ฐ˜

  • Gemini ๋ชจ๋ธ๊ณผ ๋™์ผํ•œ ์—ฐ๊ตฌ ๋ฐ ๊ธฐ์ˆ  ๊ธฐ๋ฐ˜
  • ๊ฐ€๋ณ๊ณ  ํšจ์œจ์ ์ธ ๋ชจ๋ธ ๊ตฌ์„ฑ
  • ์˜คํ”ˆ์†Œ์Šค LLM ์ƒํƒœ๊ณ„์— ๊ธฐ์—ฌ


๐Ÿชถ Gemma 1

ํ•ญ๋ชฉ๋‚ด์šฉ
๐Ÿง  ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜2B (๊ฒฝ๋Ÿ‰ํ˜•)
๐Ÿ“š ํ•™์Šต ๋ฐ์ดํ„ฐ6์กฐ ํ† ํฐ
๐Ÿ”ก ์–ดํœ˜ ํฌ๊ธฐ256,000 ๋‹จ์–ด
โšก ํŠน์ง•๋‹จ์ผ GPU์—์„œ๋„ ๊ณ ํšจ์œจ ์‹คํ–‰ ๊ฐ€๋Šฅ
๐ŸŒ ๊ณต๊ฐœ ์—ฌ๋ถ€โœ… ์˜คํ”ˆ์†Œ์Šค (๊ณต๊ฐœ LLM ์ปฌ๋ ‰์…˜์— ํฌํ•จ)

๐Ÿš€ Gemma 2

ํ•ญ๋ชฉ๋‚ด์šฉ
๐Ÿง  ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜27B
๐Ÿ“Š ์„ฑ๋Šฅ**LLaMA 3 (70B)**์— ํ•„์ ํ•˜๋Š” ์„ฑ๋Šฅ
๐ŸŽฏ ๋ชฉ์ ๊ณ ์„ฑ๋Šฅ + ๊ณ ํšจ์œจ + ์˜คํ”ˆ ์•ก์„ธ์Šค
๐Ÿ”ง ํ˜ธํ™˜์„ฑ๋‹ค์–‘ํ•œ ํŠœ๋‹ ํˆด์ฒด์ธ๊ณผ ํ˜ธํ™˜ (ํด๋ผ์šฐ๋“œ, ์ปค๋ฎค๋‹ˆํ‹ฐ ๋„๊ตฌ ๋“ฑ)
๐Ÿงฉ ์ ์šฉ ๋ฒ”์œ„ํญ๋„“์€ AI ๊ฐœ๋ฐœ์ž ์‚ฌ์šฉ์— ์ ํ•ฉ

๐Ÿง  Gemma 3 (์ตœ์‹ )

ํ•ญ๋ชฉ๋‚ด์šฉ
๐Ÿ”„ ์ž…๋ ฅ ์œ ํ˜•ํ…์ŠคํŠธ + ์ด๋ฏธ์ง€ ์ž…๋ ฅ, ํ…์ŠคํŠธ ์ถœ๋ ฅ (๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ)
๐Ÿง  ํŒŒ๋ผ๋ฏธํ„ฐ ์ข…๋ฅ˜1B / 4B / 12B / 27B โ†’ ๋‹ค์–‘ํ•œ ํ•˜๋“œ์›จ์–ด ํ™˜๊ฒฝ ์ง€์›
๐Ÿ“ ์ปจํ…์ŠคํŠธ ๊ธธ์ด์ตœ๋Œ€ 128K ํ† ํฐ
๐ŸŒ ์–ธ์–ด ์ง€์›140๊ฐœ ์ด์ƒ ์–ธ์–ด
๐Ÿงญ ํ™œ์šฉ ์šฉ๋„๊ฒฝ๋Ÿ‰ ๊ธฐ๊ธฐ๋ถ€ํ„ฐ ๊ณ ์„ฑ๋Šฅ ์„œ๋ฒ„๊นŒ์ง€ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ ๋Œ€์‘ ๊ฐ€๋Šฅ

๐Ÿฆ™ Meta์˜ LLaMA ์‹œ๋ฆฌ์ฆˆ ์š”์•ฝ

๐Ÿง  ๊ณตํ†ต ๊ตฌ์กฐ

  • ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜
  • ๋””์ฝ”๋” ์ „์šฉ(Decoder-only) ์•„ํ‚คํ…์ฒ˜
  • GPT ๊ณ„์—ด๊ณผ ์œ ์‚ฌ
  • ์ž…๋ ฅ๋œ ํ† ํฐ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธก


๐Ÿฆ™ LLaMA 1

ํ•ญ๋ชฉ๋‚ด์šฉ
๐Ÿ“ ํฌ๊ธฐ7B, 13B, 30B, 65B
๐Ÿ” ํŠน์ง•- ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ
- ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ ์ค‘ ์šฐ์ˆ˜ํ•œ ํผํฌ๋จผ์Šค

๐Ÿฆ™ LLaMA 2

ํ•ญ๋ชฉ๋‚ด์šฉ
๐Ÿ“ ํฌ๊ธฐ7B, 13B, 70B
๐Ÿ’ผ ๋ผ์ด์„ ์Šค์ƒ์—…์  ์‚ฌ์šฉ ํ—ˆ์šฉ
๐Ÿ“ˆ ํ–ฅ์ƒ ๋‚ด์šฉ- ํ•™์Šต ๋ฐ์ดํ„ฐ 40% ์ฆ๊ฐ€
- ๋ฌธ๋งฅ ๊ธธ์ด 2๋ฐฐ (4096 tokens)
- Grouped-Query Attention ๋„์ž…
๐Ÿ—จ๏ธ ๋Œ€ํ™” ํŠนํ™”LLaMA 2-Chat: ์ฑ„ํŒ…์— ์ตœ์ ํ™”๋œ ํŠœ๋‹ ๋ชจ๋ธ

๐Ÿฆ™ LLaMA 3

ํ•ญ๋ชฉ๋‚ด์šฉ
๐Ÿง  ๋ชฉํ‘œ์ถ”๋ก , ์ฝ”๋”ฉ, ์ง€์‹ ๋ถ„์•ผ ์„ฑ๋Šฅ ํ–ฅ์ƒ
๐Ÿ”’ ์•ˆ์ „์„ฑ์œ ํ•ด ์ถœ๋ ฅ ๊ฐ์†Œ ์œ„ํ•œ ํ•™์Šต ๋ฐ ์ •๋ ฌ ๊ฐ•ํ™”
๐Ÿ“ˆ ๊ธฐ๋Œ€ ์‚ฌํ•ญ- ๋” ๋„“์€ ํฌ๊ธฐ ๋ฒ”์œ„
- ๋‹ค์–‘ํ•œ ํ™œ์šฉ ์˜์—ญ ๋Œ€์‘

๐Ÿฆ™ LLaMA 3.2 (์ตœ์‹ )

ํ•ญ๋ชฉ๋‚ด์šฉ
๐ŸŒ ๋‹ค๊ตญ์–ด ์ง€์›ํ…์ŠคํŠธ ์ „์šฉ + ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(๋น„์ „ LLM ํฌํ•จ)
โš™๏ธ ๊ฒฝ๋Ÿ‰ํ™”์–‘์žํ™” ๋ฒ„์ „ ์ œ๊ณต โ†’ ๊ธฐ๊ธฐ ๋‚ด ์‹คํ–‰ ๊ฐ€๋Šฅ
๐Ÿ”ก ์–ดํœ˜128K ํ† ํฐ ์–ดํœ˜ ์ง‘ํ•ฉ
โšก ๊ธฐ์ˆ Grouped-Query Attention ์œ ์ง€

๐ŸŒ€ Mixtral โ€“ Mistral AI์˜ ๊ณ ์„ฑ๋Šฅ SMoE ๋ชจ๋ธ

๐Ÿงฑ ๋ชจ๋ธ ๊ฐœ์š”

ํ•ญ๋ชฉ๋‚ด์šฉ
๐Ÿง  ๋ชจ๋ธ๋ช…Mixtral 8x7B
๐Ÿงฌ ๊ตฌ์กฐSparse Mixture of Experts (SMoE)
๐Ÿ”ข ์ด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜47B (์ „์ฒด), 13B๋งŒ ํ™œ์„ฑํ™”๋จ (ํ† ํฐ๋‹น)
โšก ์ถ”๋ก  ํšจ์œจ์„ฑ๋” ๋น ๋ฅธ ์ถ”๋ก ๊ณผ ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰ ์ œ๊ณต


๐Ÿง  ์„ฑ๋Šฅ ๋ฐ ํ™œ์šฉ ์˜์—ญ

  • ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ

  • ์ฝ”๋“œ ์ƒ์„ฑ

  • ๋‹ค๊ตญ์–ด ์ฒ˜๋ฆฌ(Multilingual)

  • ์œ„ ๋ถ„์•ผ์—์„œ LLaMA 2 70B๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ ๋ณด์ž„

๐Ÿ“ ๋ฌธ๋งฅ ๊ธธ์ด ์ง€์›: ์ตœ๋Œ€ 32,000 ํ† ํฐ


๐Ÿ“š ํŠœ๋‹ ๋ชจ๋ธ โ€“ Mixtral 8x7B-Instruct

  • ์ง€์‹œ์–ด ๊ธฐ๋ฐ˜(Instruct tuning) ๋ชจ๋ธ

  • ์‚ฌ๋žŒ ํ‰๊ฐ€ ๊ธฐ์ค€์œผ๋กœ ์—ฌ๋Ÿฌ ํ์‡„ํ˜• ๋ชจ๋ธ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ ๋‹ฌ์„ฑ


๐Ÿ”“ ์˜คํ”ˆ์†Œ์Šค ๋ฐ ์ ‘๊ทผ์„ฑ

ํ•ญ๋ชฉ๋‚ด์šฉ
๐Ÿ“œ ๋ผ์ด์„ ์ŠคApache 2.0 โ†’ ์™„์ „ํ•œ ์˜คํ”ˆ ์•ก์„ธ์Šค
โ˜๏ธ API ์ œ๊ณต๋‹ค์–‘ํ•œ ๋ชจ๋ธ ํฌ๊ธฐ ๋ฐ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•˜์—ฌ ์‚ฌ์šฉ์ž์˜ ์š”๊ตฌ์— ๋งž์ถ˜ API ํ™œ์šฉ ๊ฐ€๋Šฅ

๐Ÿง  OpenAI O1

OpenAI์˜ ์ƒˆ๋กœ์šด โ€œO1โ€ ์‹œ๋ฆฌ์ฆˆ๋Š” ๋ชจ๋ธ ์„ฑ๋Šฅ์˜ ํš๊ธฐ์ ์ธ ๋„์•ฝ์„ ๋ณด์—ฌ์ฃผ๋Š” ๋ชจ๋ธ๊ตฐ์œผ๋กœ,
๋ณต์žกํ•œ ์ถ”๋ก  ๋Šฅ๋ ฅ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ,
**๊ฐ•ํ™”ํ•™์Šต(์žฌ๊ฐ•ํ™” ํ•™์Šต, Reinforcement Learning)**์„ ํ†ตํ•ด ์ด๋Ÿฌํ•œ ๋Šฅ๋ ฅ์„ ์ •๊ตํ•˜๊ฒŒ ๋‹ค๋“ฌ์—ˆ์Šต๋‹ˆ๋‹ค.


๐Ÿ”— ์ฒด์ธ ์˜ค๋ธŒ ์˜ํŠธ(Chain-of-Thought) ๋‚ด๋ถ€ ์ฒ˜๋ฆฌ

  • O1 ๋ชจ๋ธ์€ ๋‚ด๋ถ€์ ์œผ๋กœ **โ€œ์ƒ๊ฐ์˜ ํ๋ฆ„(Chain of Thought)โ€**์„ ์ ์šฉํ•ด,
    ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ธฐ ์ „ ๊นŠ์ด ์žˆ๋Š” ์‚ฌ๊ณ (deliberation) ๊ณผ์ •์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค.

  • ์ด๋Ÿฌํ•œ ์‹ ์ค‘ํ•œ ์ถ”๋ก  ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹ ๋•๋ถ„์—
    ๋ณต์žกํ•œ ๊ณผํ•™์  ์ถ”๋ก  ๋ฌธ์ œ์—์„œ๋„ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.


๐Ÿ“ˆ ๋ฒค์น˜๋งˆํฌ ์„ฑ๋Šฅ

O1 ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ณ ๋‚œ์ด๋„ ๋ฒค์น˜๋งˆํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค:

  • Codeforces ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋Œ€ํšŒ: ์ƒ์œ„ 89 ํผ์„ผํƒ€์ผ

  • AIME(๋ฏธ๊ตญ ์ˆ˜ํ•™ ์˜ฌ๋ฆผํ”ผ์•„๋“œ ์˜ˆ์„ ): ์ „๊ตญ ์ƒ์œ„ 500์œ„๊ถŒ

  • GPQA (๋ฌผ๋ฆฌํ•™, ์ƒ๋ฌผํ•™, ํ™”ํ•™ ํฌํ•จ ๊ณ ๋‚œ์ด๋„ ๊ณผํ•™ ๋ฌธ์ œ์ง‘):
    โ†’ ๋ฐ•์‚ฌ๊ธ‰ ์ธ๊ฐ„ ์ •ํ™•๋„(PhD-level human accuracy) ๋Šฅ๊ฐ€


โš™๏ธ API ์ œ๊ณต ๋ชจ๋ธ

  1. o1 (์ฃผ๋ ฅ ๋ชจ๋ธ)

    • ๊ด‘๋ฒ”์œ„ํ•œ ์ผ๋ฐ˜ ์ง€์‹์ด ํ•„์š”ํ•œ ๋‚œ์ด๋„ ๋†’์€ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ตœ์ ํ™”
  2. o1-mini (๊ฒฝ๋Ÿ‰ ๊ณ ์† ๋ชจ๋ธ)

    • ๋” ๋น ๋ฅด๊ณ  ๋น„์šฉ ํšจ์œจ์ 

    • ์ฝ”๋”ฉ, ์ˆ˜ํ•™, ๊ณผํ•™์ฒ˜๋Ÿผ ํŠนํ™”๋œ ๊นŠ์€ ์ง€์‹์ด ์ค‘์š”ํ•œ ์˜์—ญ์—์„œ ๋›ฐ์–ด๋‚จ

๐Ÿง  DeepSeek

DeepSeek๋Š” OpenAI์˜ O1 ์‹œ๋ฆฌ์ฆˆ์— ํ•„์ ํ•˜๋Š” ๊ณ ๊ธ‰ ์ถ”๋ก  ๋Šฅ๋ ฅ์„
๊ด‘๋ฒ”์œ„ํ•œ ๋ผ๋ฒจ๋ง ๋ฐ์ดํ„ฐ ์—†์ด, ์ƒˆ๋กœ์šด ๊ฐ•ํ™” ํ•™์Šต ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

๋Œ€ํ‘œ์ ์ธ ์˜ˆ๊ฐ€ DeepSeek-R1-Zero ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
์ด ๋ชจ๋ธ์€ **์˜ค์ง ๊ฐ•ํ™”ํ•™์Šต(RL)**๋งŒ์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.


๐Ÿ” ๊ธฐ์กด RL ๋ฐฉ์‹ vs DeepSeek ๋ฐฉ์‹

โŒ ๊ธฐ์กด ๋ฐฉ์‹:

  • ๋Œ€๋ถ€๋ถ„์˜ LLM์šฉ ๊ฐ•ํ™”ํ•™์Šต์€ โ€œ๋น„ํ‰์ž(Critic)โ€ ๋ชจ๋ธ์„ ํ•„์š”๋กœ ํ•จ
    โ†’ ์ด๋Š” ์‚ฌ๋žŒ์ด ๋ผ๋ฒจ๋งํ•œ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋˜์–ด, ๋ชจ๋ธ ์ถœ๋ ฅ์— ํ”ผ๋“œ๋ฐฑ ์ œ๊ณต

โœ… DeepSeek์˜ ํ˜์‹ : GRPO (Group Relative Policy Optimization)

  • ๋น„ํ‰์ž ์—†์ด ์ž‘๋™

  • ๋ฏธ๋ฆฌ ์ •์˜๋œ ๊ทœ์น™(์˜ˆ: ์ผ๊ด€์„ฑ, ์™„์„ฑ๋„, ์œ ์ฐฝ์„ฑ)์„ ๊ธฐ์ค€์œผ๋กœ
    ์—ฌ๋Ÿฌ ์ถœ๋ ฅ ๊ฒฐ๊ณผ์— ์ ์ˆ˜๋ฅผ ๋งค๊น€

  • ๋ชจ๋ธ์€ ์ž์‹ ์˜ ์ถœ๋ ฅ์ด ์ง‘๋‹จ ํ‰๊ท ๋ณด๋‹ค ์ข‹์€์ง€ ๋น„๊ตํ•˜๋ฉฐ ํ•™์Šตํ•จ
    โ†’ ์ผ์ข…์˜ ์ž๊ธฐ ๋Œ€๊ฒฐ(Self-play) ๋ฐฉ์‹


๐Ÿ“‰ ์ดˆ๊ธฐ ๋ฌธ์ œ์ 

  • DeepSeek-R1-Zero๋Š” **๊ณ ๋‚œ๋„ ์ˆ˜ํ•™ ์ถ”๋ก (AIME 2024)**์—์„œ O1๊ณผ ๋™๊ธ‰ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์ง€๋งŒ,
    ์ดˆ๋ฐ˜์—๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค:

    • ๋ฌธ์žฅ ๊ฐ€๋…์„ฑ ๋ถ€์กฑ

    • ์–ธ์–ด ํ˜ผ์šฉ ํ˜„์ƒ ๋ฐœ์ƒ


๐Ÿ› ๏ธ DeepSeek-R1์˜ ๋‹ค๋‹จ๊ณ„ ํ›ˆ๋ จ ํ”„๋กœ์„ธ์Šค

  1. 1๋‹จ๊ณ„: SFT (Supervised Fine-Tuning)

    • ์†Œ๊ทœ๋ชจ โ€œ์ฝœ๋“œ ์Šคํƒ€ํŠธโ€ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ธฐ๋ณธ ์–ธ์–ด ์ดํ•ด๋ ฅ ํ˜•์„ฑ
  2. 2๋‹จ๊ณ„: ์ˆœ์ˆ˜ ๊ฐ•ํ™”ํ•™์Šต (Pure-RL)

    • GRPO ์ ์šฉ โ†’ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ

    • DeepSeek-R1-Zero ๋ฐฉ์‹๊ณผ ์œ ์‚ฌ

  3. 3๋‹จ๊ณ„: ๊ฑฐ์ ˆ ์ƒ˜ํ”Œ๋ง (Rejection Sampling)

    • ๋ชจ๋ธ์ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ถœ๋ ฅ ์ƒ์„ฑ โ†’ GRPO ๊ธฐ์ค€์œผ๋กœ ๊ฐ€์žฅ ์ข‹์€ ๊ฒƒ๋งŒ ์„ ํƒ

    • ์ด๋ฅผ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ โ€œํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹โ€ ์ƒ์„ฑ

  4. 4๋‹จ๊ณ„: ์ตœ์ข… SFT + RL

    • ๊ธฐ์กด ๊ฐ๋…ํ•™์Šต ๋ฐ์ดํ„ฐ + ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ๊ฒฐํ•ฉ

    • ๋งˆ์ง€๋ง‰์œผ๋กœ ์ „์ฒด ์„ฑ๋Šฅ์„ ๋‹ค๋“ฌ๊ณ  ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ ๊ฐ•ํ™”


๐ŸŒŸ ๊ฒฐ๊ณผ: DeepSeek-R1

  • O1 ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๊ฑฐ๋‚˜ ๋™๊ธ‰ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ

  • ๋ณต์žกํ•œ ๋ฌธ์ œ์—์„œ์˜ Chain-of-Thought ์ถ”๋ก ์€
    โ†’ ์ด ํ›ˆ๋ จ ๋ฐฉ์‹๊ณผ ๋ณธ์งˆ์ ์œผ๋กœ ์—ฐ๊ฒฐ


โš ๏ธ ์˜คํ”ˆ์†Œ์Šค? ๋ฐ˜์ฏค๋งŒ

  • DeepSeek๋Š” ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋ฅผ ์ œ๊ณตํ•˜์ง€๋งŒ

    • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ,

    • ์ฒ˜๋ฆฌ ์Šคํฌ๋ฆฝํŠธ,

    • ๋ฐ์ดํ„ฐ ์ •์ œ ๊ณผ์ •์— ๋Œ€ํ•œ ํˆฌ๋ช…์„ฑ์ด ์—†์–ด
      โ†’ ์‚ฌ์‹ค์ƒ ํ์‡„ํ˜• ๋ชจ๋ธ

๐ŸŒ ๊ธฐํƒ€ ์˜คํ”ˆ ์–ธ์–ด ๋ชจ๋ธ(Open LLMs)

์˜คํ”ˆ์†Œ์Šค LLM ์ƒํƒœ๊ณ„๋Š” ๋งค์šฐ ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ ์ค‘์ด๋ฉฐ,
์ฝ”๋“œ์™€ ์‚ฌ์ „ํ•™์Šต๋œ ๊ฐ€์ค‘์น˜๊ฐ€ ๋ชจ๋‘ ๊ณต๊ฐœ๋œ ๋ชจ๋ธ๋„ ์ ์  ๋งŽ์•„์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
์•„๋ž˜๋Š” ๋Œ€ํ‘œ์ ์ธ ์˜ˆ์‹œ๋“ค์ž…๋‹ˆ๋‹ค:


๐Ÿ”ธ Qwen 1.5 (by Alibaba)

ํ•ญ๋ชฉ๋‚ด์šฉ
๐Ÿง  ๋ชจ๋ธ ํฌ๊ธฐ0.5B, 1.8B, 4B, 7B, 14B, 72B
๐Ÿ“ ๋ฌธ๋งฅ ๊ธธ์ด์ตœ๋Œ€ 32,000 ํ† ํฐ ์ง€์›
๐Ÿ“ˆ ์„ฑ๋Šฅ- ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ
  • ํŠนํžˆ Qwen 1.5-72B๋Š” LLaMA 2-70B๋ฅผ ์ „ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋Šฅ๊ฐ€

  • ์–ธ์–ด ์ดํ•ด, ์ถ”๋ก , ์ˆ˜ํ•™ ๋ถ„์•ผ์—์„œ ๋›ฐ์–ด๋‚จ


๐Ÿ”ธ Yi (by 01.AI)

ํ•ญ๋ชฉ๋‚ด์šฉ
๐Ÿง  ๋ชจ๋ธ ํฌ๊ธฐ6B, 34B
๐Ÿ“š ํ•™์Šต ๋ฐ์ดํ„ฐ์˜์–ด + ์ค‘๊ตญ์–ด ํฌํ•จ ์ด 3.1์กฐ ํ† ํฐ
๐Ÿ“ ๋ฌธ๋งฅ ๊ธธ์ด200K ํ† ํฐ ๋ฒ„์ „๋„ ์žˆ์Œ
๐Ÿ“ธ ํ™•์žฅ ๋ชจ๋ธYi-VL (๋น„์ „-์–ธ์–ด ๋ชจ๋ธ)
โš™๏ธ ํšจ์œจ์„ฑ- 4๋น„ํŠธ ์–‘์žํ™”๋กœ ์ผ๋ฐ˜ GPU์—์„œ๋„ ์‹คํ–‰ ๊ฐ€๋Šฅ
๐ŸŽฏ ์„ฑ๋Šฅ34B ๋ชจ๋ธ์€ GPT-3.5์— ํ•„์ ํ•˜๋Š” ์„ฑ๋Šฅ
โœ… ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์ฒ ์ €ํ•œ ์ •์ œ ๋ฐ ํ•„ํ„ฐ๋ง์œผ๋กœ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๊ฐ•์กฐ

๐Ÿ”ธ Grok 3 (by xAI, ์ผ๋ก  ๋จธ์Šคํฌ ์ฃผ๋„)

ํ•ญ๋ชฉ๋‚ด์šฉ
๐Ÿง  ๋ชจ๋ธ ์ข…๋ฅ˜Grok 3 (Think), Grok 3 mini (Think)
๐Ÿง  ํ•™์Šต ๋ฐฉ์‹๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฐ˜(RL)
๐Ÿค” ํŠน์ง•- ์˜ค๋‹ต ์ˆ˜์ •(backtracking)
  • ๋‹จ๊ณ„ ๋‹จ์ˆœํ™”, ์‚ฌ์ „ํ•™์Šต ์ง€์‹ ํ™œ์šฉ ๋“ฑ ์ „๋žต ํ•™์Šต
    | ๐Ÿ“ ๋ฌธ๋งฅ ๊ธธ์ด | ์ตœ๋Œ€ 100๋งŒ ํ† ํฐ

  • ์ด์ „ ๋ชจ๋ธ๋ณด๋‹ค 8๋ฐฐ ์ฆ๊ฐ€

Summary Model

Fine-tuning large language models

๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์€ ๋ณดํ†ต ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์˜ ํ›ˆ๋ จ์„ ๊ฑฐ์ณ ๋งŒ๋“ค์–ด์ง„๋‹ค. ๊ทธ ์ค‘ ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ์‚ฌ์ „ํ•™์Šต(pre-training)์ด๋ผ๊ณ  ํ•œ๋‹ค.

์‚ฌ์ „ํ•™์Šต(Pre-training)

  • ์ •์˜ : ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ๋ผ๋ฒจ ์—†๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด, ์•ž์— ๋‚˜์˜จ ๋‹จ์–ด๋“ค์„ ๋ณด๊ณ  ๋‹ค์Œ์— ์–ด๋–ค ๋‹จ์–ด๊ฐ€ ๋‚˜์˜ฌ์ง€ ์˜ˆ์ธกํ•˜๋Š” ์—ฐ์Šต์„ ์‹œํ‚ค๋Š” ๊ณผ์ •์ด๋‹ค.
  • ์ด ๊ณผ์ •์„ ํ†ตํ•ด ๋ชจ๋ธ์€ ์–ธ์–ด๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋งŒ๋“ค์–ด๋‚ด๋Š” ๊ธฐ๋ณธ ๋Šฅ๋ ฅ์„ ์–ป๊ฒŒ ๋œ๋‹ค.

ํŒŒ์ธํŠœ๋‹(Fine-tuning, ๋ฏธ์„ธ์กฐ์ •)

  • ์ •์˜ : ์‚ฌ์ „ํ•™์Šต์ด ๋๋‚œ ๋ชจ๋ธ์—๊ฒŒ ํŠน์ •ํ•œ ์ž„๋ฌด๋ฅผ ๋” ์ž˜ ํ•˜๋„๋ก ์ถ”๊ฐ€๋กœ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ณผ์ •์ด๋‹ค.
  • ํŒŒ์ธํŠœ๋‹์€ ์ง€์‹œ๋ฅผ ๋”ฐ๋ฅด๊ฒŒ ํ•˜๋Š” ํ›ˆ๋ จ ๋˜๋Š” ๊ฐ๋…ํ•™์Šต ํŒŒ์ธํŠœ๋‹์ด๋ผ๊ณ  ํ•œ๋‹ค.
  • ์ด๋•Œ๋Š” ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•œ ์˜ˆ์‹œ ๋ฐ์ดํ„ฐ(์ •๋‹ต ํฌํ•จ)์„ ์‚ฌ์šฉํ•œ๋‹ค.

ํŒŒ์ธํŠœ๋‹์„ ํ†ตํ•ด ์ข‹์•„์งˆ ์ˆ˜ ์žˆ๋Š” ์˜ˆ๋“ค

  • Instruction-tuning
    • ์˜ˆ : โ€œ์ด ๊ธ€์„ ์š”์•ฝํ•ด์ค˜โ€, โ€œ์ด ์ฝ”๋“œ๋ฅผ ์งœ์ค˜.โ€
  • Dialogue-tuning
    • ์˜ˆ : ์งˆ๋ฌธ๊ณผ ๋‹ต๋ณ€ ํ˜•ํƒœ๋กœ ๋Œ€ํ™”ํ•˜๋Š” ํ›ˆ๋ จ (์—ฌ๋Ÿฌ ๋ฒˆ ์ฃผ๊ณ ๋ฐ›๋Š” ๋Œ€ํ™” - ๋ฉ€ํ‹ฐํ„ด ๋‹ค์ด์–ผ๋กœ๊ทธ)
  • Safety tuning(์•ˆ์ „์„ฑ ํ›ˆ๋ จ)
    • ๋ชจ๋ธ์ด ํŽธ๊ฒฌ, ์ฐจ๋ณ„, ๊ณต๊ฒฉ์ ์ธ ๋ง์„ ํ•˜์ง€ ์•Š๋„๋ก ๋งŒ๋“œ๋Š” ๊ณผ์ •
    • ์‚ฌ๋žŒ์ด ์ง์ ‘ ํ™•์ธํ•˜๊ณ  ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ๋Š” ๋ฐฉ์‹(Human-in-the-loop)
    • RLHF(์‚ฌ๋žŒ์˜ ํ”ผ๋“œ๋ฐฑ์„ ํ™œ์šฉํ•œ ๊ฐ•ํ™”ํ•™์Šต)

Supervised fine-tuning

์•ž์—์„œ ์–ธ๊ธ‰ํ•œ ๊ฒƒ์ฒ˜๋Ÿผ SFT๋Š” LLM์˜ ์„ฑ๋Šฅ์„ ํŠน์ • ์ž‘์—…์ด๋‚˜ ์ž‘์—… ์ง‘ํ•ฉ์— ๋Œ€ํ•ด ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด, ๋„๋ฉ”์ธ ํŠนํ™”๋˜๊ณ  ๋ผ๋ฒจ์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋กœ ๋ชจ๋ธ์„ ์ถ”๊ฐ€ ํ•™์Šต์‹œํ‚ค๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ์ดํ„ฐ์…‹์€ ๋ณดํ†ต ์‚ฌ์ „ํ•™์Šต ๋•Œ ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ์…‹๋ณด๋‹ค ํ›จ์”ฌ ์ž‘๊ณ , ์‚ฌ๋žŒ์ด ์ง์ ‘ ์„ ๋ณ„ํ•œ ๊ณ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ์ธ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๋‹ค. ์ด๋Ÿฐ ํ™˜๊ฒฝ์—์„œ ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋Š” ์ž…๋ ฅ(prompt)๊ณผ ์˜ˆ์‹œ ์‘๋‹ต(target response)์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

  • ์งˆ๋ฌธ(prompt)๊ณผ ๋‹ต๋ณ€(target response)
  • ํ•œ ์–ธ์–ด(prompt)์—์„œ ๋‹ค๋ฅธ ์–ธ์–ด(target response)๋กœ์˜ ๋ฒˆ์—ญ
  • ์š”์•ฝํ•  ๋ฌธ์„œ(prompt)์™€ ๊ทธ์— ํ•ด๋‹นํ•˜๋Š” ์š”์•ฝ(target response)

์ค‘์š”ํ•œ ์ ์€ ํŒŒ์ธํŠœ๋‹์€ ์œ„์—์„œ ๋งํ•œ ํŠน์ • ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋ชจ๋ธ์ด ๋” ์•ˆ์ „ํ•˜๊ณ  ๋œ ๊ณต๊ฒฉ์ ์ด๋ฉฐ ๋” ๋Œ€ํ™”ํ˜•์ด๊ณ  ์ง€์‹œ๋ฅผ ์ž˜ ๋”ฐ๋ฅด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ–‰๋™์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ์—๋„ ์“ฐ์ผ ์ˆ˜ ์žˆ๋‹ค.

์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ์ด์šฉํ•œ ๊ฐ•ํ™”ํ•™์Šต(Reinforcement Learning from Human Feedback, RLHF)

๋ณดํ†ต SFT(๊ฐ๋…ํ•™์Šต ํŒŒ์ธํŠœ๋‹)์ด ๋๋‚œ ํ›„, ๋‘ ๋ฒˆ์งธ ํŒŒ์ธํŠœ๋‹ ๋‹จ๊ณ„๋กœ RLHF์ด๋ผ๋Š” ๊ณผ์ •์„ ์ง„ํ–‰ํ•œ๋‹ค. ์ด ๊ธฐ์ˆ ์€ LLM์ด ์‚ฌ๋žŒ์˜ ์„ ํ˜ธ์— ๋” ์ž˜ ๋งž๋Š” ์‘๋‹ต์„ ํ•˜๋„๋ก ๋„์™€์ฃผ๋Š” ๊ฐ•๋ ฅํ•œ ํŒŒ์ธํŠœ๋‹ ๋ฐฉ๋ฒ•์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ชจ๋ธ์˜ ์‘๋‹ต์„ ๋” ๋„์›€์ด ๋˜๊ฒŒ, ์‚ฌ์‹ค์— ๊ฐ€๊น๊ฒŒ, ์•ˆ์ „ํ•˜๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ๋Š” ๊ฒƒ์ด๋‹ค.

SFT์™€ RLHL์˜ ์ฐจ์ด์ 

  • SFT๋Š” ๋ชจ๋ธ์—๊ฒŒ ์ข‹์€ ์˜ˆ์‹œ(์งˆ๋ฌธ-๋‹ต๋ณ€์Œ)๋งŒ ๋ณด์—ฌ์ค˜์„œ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ์‹์ด์—์š”
  • RLHF๋Š” ์—ฌ๊ธฐ์— ์•ˆ ์ข‹์€ ์˜ˆ์‹œ๋„ ๋ณด์—ฌ์ฃผ๊ณ , ๋ชจ๋ธ์ด ์›ํ•˜์ง€ ์•Š๋Š” ์‘๋‹ต์„ ํ•˜๋ฉด ๋ฒŒ์ ์„ ์ค˜์„œ, ์•ˆ ์ข‹์€ ์‘๋‹ต์„ ๋œ ํ•˜๊ฒŒ ํ›ˆ๋ จ์‹œํ‚จ๋‹ค. โ†’ ๊ทธ๋ž˜์„œ ๋” ์•ˆ์ „ํ•˜๊ณ  ์œ ์ตํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์•„์ง„๋‹ค.

๋ณด์ƒ ๋ชจ๋ธ(Reward Model, RM) RLHL๋ฅผ ์‚ฌ์šฉํ•˜๋ ค๋ฉด ๋จผ์ € ๋ณด์ƒ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•ด์•ผ ํ•œ๋‹ค. ์ด ๋ชจ๋ธ์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด์„œ ์‹œ์ž‘ํ•˜๊ณ , ์‚ฌ๋žŒ์˜ ์„ ํ˜ธ๊ฐ€ ๋‹ด๊ธด ๋ฐ์ดํ„ฐ๋กœ ํŠœ๋‹ํ•œ๋‹ค. ๋ณด์ƒ ๋ชจ๋ธ ํ›ˆ๋ จ ๋ฐฉ์‹ ์˜ˆ์‹œ

  • ํ•œ ์Œ์˜ ์‘๋‹ต(A์™€ B) ์ค‘์—์„œ ์–ด๋–ค ๊ฒŒ ๋” ์ข‹์€์ง€ ์‚ฌ๋žŒ์—๊ฒŒ ๋ฌผ์–ด๋ณธ๋‹ค.
  • ์ด๋•Œ ์‚ฌ๋žŒ์˜ ์„ ํƒ์ด ๋ฐ”๋กœ human feedback์ด๋‹ค.

ํ”ผ๋“œ๋ฐฑ(์„ ํ˜ธ๋„) ํ˜•์‹์˜ ์˜ˆ์‹œ

  • ์ด์ง„๊ฐ’ : ์ข‹์Œ/๋‚˜์จ
  • ๋ฆฌ์ปค๋“œ ์ฒ™๋„ : ์ ์ˆ˜๋กœ ํ‰๊ฐ€(์˜ˆ : 1์  ~ 5์ )
  • ์ˆœ์œ„ : ์‘๋‹ต์ด 2๊ฐœ ์ด์ƒ์ผ ๋•Œ ์–ด๋–ค ๊ฒŒ ๋” ์ข‹์€์ง€ ์ˆœ์„œ๋Œ€๋กœ ํ‰๊ฐ€
  • ์ƒ์„ธ ํ‰๊ฐ€ : ๋ฌธ์žฅ์˜ ์งˆ, ์•ˆ์ „์„ฑ, ๋„์›€๋จ, ๊ณต์ •์„ฑ, ์‚ฌ์‹ค์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ๊ธฐ์ค€์„ ํ•จ๊ป˜ ๊ณ ๋ ค

RLHF ์ „์ฒด ๊ณผ์ • ์š”์•ฝ

  • ๋ณด์ƒ ๋ชจ๋ธ(RM)์„ ์‚ฌ๋žŒ์˜ ํ”ผ๋“œ๋ฐฑ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ
  • ์ด RM์„ ์‚ฌ์šฉํ•ด์„œ, ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉ
  • ๊ธฐ์กด์— instruction-tuning๊นŒ์ง€ ๋๋‚œ LLM์„ ์‚ฌ๋žŒ์ด ์„ ํ˜ธํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋” ์ •๊ตํ•˜๊ฒŒ ํŠœ๋‹

์ธ๊ฐ„ ๋Œ€์‹  AI๊ฐ€ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•: RLAIF RLHF๋Š” ์‚ฌ๋žŒ์ด ์ง์ ‘ ํ”ผ๋“œ๋ฐฑ์„ ์ค˜์•ผ ํ•ด์„œ ๋น„์šฉ์ด ๋งŽ์ด ๋“ ๋‹ค.๊ทธ๋ž˜์„œ ์ตœ๊ทผ์—๋Š” AI๊ฐ€ ์‚ฌ๋žŒ ๋Œ€์‹  ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ๋Š” ๋ฐฉ์‹๋„ ์“ด๋‹ค. ์ด๋ฅผ RLAIF(Reinforcement Learning from AI Feedback)์ด๋ผ๊ณ  ํ•œ๋‹ค. ๋˜ํ•œ ์ตœ๊ทผ์—๋Š” ๋ณด์ƒ ๋ชจ๋ธ์ด๋‚˜ ๊ฐ•ํ™”ํ•™์Šต ์—†์ด๋„ RLHF๋ฅผ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ๋‹ค. ์˜ˆ : DPO(Direct Preference Optimization)

[1๋‹จ๊ณ„] ์‚ฌ์ „ํ•™์Šต๋œ ๋ชจ๋ธ (Pretrained LLM)
          |
          v
[2๋‹จ๊ณ„] ์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ ํ›ˆ๋ จ (Instruction Tuning, SFT)
 - ์˜ˆ์‹œ: ์งˆ๋ฌธ โ†’ ์ •๋‹ต ์•Œ๋ ค์ฃผ๋ฉฐ ํ•™์Šต
          |
          v
[3๋‹จ๊ณ„] ๋ณด์ƒ ๋ชจ๋ธ ํ›ˆ๋ จ (Reward Model Training)
 - ์‚ฌ๋žŒ๋“ค์—๊ฒŒ 2๊ฐœ์˜ ์‘๋‹ต ๋ณด์—ฌ์ฃผ๊ณ , ๋” ๋‚˜์€ ์‘๋‹ต ์„ ํƒํ•˜๊ฒŒ ํ•จ
 - ์˜ˆ์‹œ:
     ์งˆ๋ฌธ: "์˜ค๋Š˜ ๋‚ ์”จ ์–ด๋•Œ?"
     ์‘๋‹ต A: "์ข‹์•„์š”."  
     ์‘๋‹ต B: "์„œ์šธ์€ ๋ง‘๊ณ  22๋„์˜ˆ์š”."
     โ†’ ์‚ฌ๋žŒ์€ B๋ฅผ ์„ ํƒ!
          |
          v
[4๋‹จ๊ณ„] ๋ณด์ƒ ๋ชจ๋ธ ์™„์„ฑ (RM)
 - ์ด์ œ RM์€ ์–ด๋–ค ์‘๋‹ต์ด ์ข‹์€์ง€ ์ ์ˆ˜๋ฅผ ์ค„ ์ˆ˜ ์žˆ์Œ
          |
          v
[5๋‹จ๊ณ„] ๊ฐ•ํ™” ํ•™์Šต ์‹œ์ž‘ (RL)
 - ๊ธฐ์กด LLM์ด ์—ฌ๋Ÿฌ ์‘๋‹ต์„ ์ƒ์„ฑํ•จ
 - RM์ด ์‘๋‹ต์„ ํ‰๊ฐ€ํ•˜์—ฌ ์ ์ˆ˜๋ฅผ ์คŒ (๋ณด์ƒ/๋ฒŒ์ )
 - ์ ์ˆ˜๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๋” ๋‚˜์€ ๋‹ต์„ ์ƒ์„ฑํ•˜๋„๋ก ํ•™์Šต
          |
          v
[6๋‹จ๊ณ„] RLHF ์™„๋ฃŒ๋œ LLM ๐ŸŽ‰
 - ์ด์ œ ์‚ฌ๋žŒ์˜ ์„ ํ˜ธ์— ๋” ์ž˜ ๋งž๋Š” ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•จ
 - ๋” ์•ˆ์ „ํ•˜๊ณ , ๋„์›€๋˜๊ณ , ์‚ฌ์‹ค์ ์ธ ์‘๋‹ต ๊ฐ€๋Šฅ!

PEFT(Parameter Efficient Fine-Tuning)

์•ž์„œ ๋ฐฐ์šด SFT(๊ฐ๋…ํ•™์Šต ํŒŒ์ธํŠœ๋‹)๋‚˜ RLHF(์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ์ด์šฉํ•œ ๊ฐ•ํ™”ํ•™์Šต)๋Š” ์„ฑ๋Šฅ์ด ์ข‹๊ธด ํ•˜์ง€๋งŒ, ์—„์ฒญ๋‚˜๊ฒŒ ๋งŽ์€ ๊ณ„์‚ฐ ์ž์›(GPU, ์‹œ๊ฐ„ ๋“ฑ)์ด ํ•„์š”ํ•˜๋‹ค. ์™œ๋ƒํ•˜๋ฉด ๋ชจ๋ธ ์ „์ฒด๋ฅผ ๋‹ค์‹œ ํ›ˆ๋ จ์‹œ์ผœ์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด ๋ฌธ์ œ๋ฅผ ํ›จ์”ฌ ์‹ธ๊ณ  ๋น ๋ฅด๊ฒŒ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด PEFT์ด๋‹ค.

PEFT๋ž€?

PEFT๋Š” ๋ชจ๋ธ ์ „์ฒด๋ฅผ ํ›ˆ๋ จํ•˜๋Š” ๋Œ€์‹ , ์•„์ฃผ ์ž‘์€ ์ผ๋ถ€๋งŒ ์‚ด์ง ๋ฐ”๊พธ๋Š” ๋ฐฉ์‹์ด๋‹ค. PEFT๋Š” ์ž‘๋™ ๋ฐฉ์‹

  • ์ด๋ฏธ ์ž˜ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๊ฐ€์ ธ์˜จ๋‹ค.
  • ๊ทธ ๋ชจ๋ธ์— ์ž‘์€ ์ƒˆ๋กœ์šด ๋ง๋ถ™์ž„์„ ์ถ”๊ฐ€ํ•œ๋‹ค.
  • ์ด ๋ง๋ถ™์ž„๋งŒ ํ•™์Šต์‹œ์ผœ์„œ ๋ชจ๋ธ์„ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋งž๊ฒŒ ์กฐ์ •ํ•œ๋‹ค.

๋Œ€ํ‘œ์ ์ธ PEFT ๋ฐฉ๋ฒ•๋“ค

  1. ์–ด๋Œ‘ํ„ฐ ๊ธฐ๋ฐ˜ ํŒŒ์ธํŠœ๋‹(Adapter-based Fine-Tuning)
    • ๊ธฐ์กด ๋ชจ๋ธ์— ์ž‘์€ ๋ชจ๋“ˆ์„ ๋ถ™์ด๋‹ค.
    • ์ „์ฒด ๋ชจ๋ธ์„ ๋ฐ”๊พธ์ง€ ์•Š๊ณ , ์ด ์–ด๋Œ‘ํ„ฐ ๋ถ€๋ถ„๋งŒ ํ•™์Šตํ•œ๋‹ค.
  2. ๋กœ์šฐ๋žญํฌ ์–ด๋Œ‘ํ…Œ์ด์…˜(LoRA : Low-Rank Adaptation)
    • ๊ธฐ์กด ๋ชจ๋ธ์˜ ํฐ ํ–‰๋ ฌ์„ ์ง์ ‘ ๋ฐ”๊พธ์ง€ ์•Š๊ณ , ๋Œ€์‹ ์— ์ž‘์€ 2 ๊ฐœ์˜ ํ–‰๋ ฌ๋กœ ์—…๋ฐ์ดํŠธ๋ฅผ ํ‰๋‚ด๋‚ธ๋‹ค.
    • ์›๋ž˜ ๋ชจ๋ธ์„ ๊ทธ๋Œ€๋กœ ๋‘๊ณ , LoRA ๋ถ€๋ถ„๋งŒ ํ•™์Šตํ•œ๋‹ค.
    • ์ตœ์‹  ๊ธฐ์ˆ ์ธ QLoRA๋Š” ์ด ํ–‰๋ ฌ์„ ์••์ถ•ํ•ด์„œ ๋” ํšจ์œจ์ ์ด๋‹ค.
    • LoRA ์žฅ์ 
      • ํ”Œ๋Ÿฌ๊ทธ์ฒ˜๋Ÿผ ์ž‘์—…๋ณ„๋กœ ๊ต์ฒด ๊ฐ€๋Šฅ
      • ๋ชจ๋ธ ์ „์ฒด๋ฅผ ์ฃผ๊ณ  ๋ฐ›์„ ํ•„์š” ์—†์ด, LoRA ๋ถ€๋ถ„๋งŒ ๊ณต์œ ํ•ด๋„ ๋œ๋‹ค.
  3. ์†Œํ”„ํŠธ ํ”„๋กฌํ”„ํŠธ(Soft Prompting)
    • ๋ณดํ†ต ๋ชจ๋ธ์— โ€œ์งˆ๋ฌธ์ฒ˜๋Ÿผโ€ ํ…์ŠคํŠธ๋กœ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ฃผ์ง€๋งŒ, ์ด ๋ฐฉ์‹์€ ๊ทธ๋Ÿฐ ํ”„๋กฌํ”„ํŠธ ๋Œ€์‹  ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋ฒกํ„ฐ๋ฅผ ๋„ฃ๋Š”๋‹ค.
    • ์ด ๋ฒกํ„ฐ๋Š” 5๊ฐœ ํ† ํฐ ์ •๋„๋กœ ์•„์ฃผ ์ž‘๊ณ  ๊ฐ€๋ณ๊ฒŒ ํ•™์Šต ๊ฐ€๋Šฅํ•˜๋‹ค.
    • ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํ˜ผํ•ฉํ•ด์„œ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์žฅ์ ๋„ ์žˆ๋‹ค.

์ •๋ฆฌ ๋น„๊ตํ‘œ

๋ฐฉ๋ฒ•์„ฑ๋Šฅ๋น„์šฉ/์ž์›ํŠน์ง•
์ „์ฒด ํŒŒ์ธํŠœ๋‹๐Ÿ”ฅ ์ตœ๊ณ โŒ ๋งค์šฐ ๋†’์Œ์ „์ฒด ๋ชจ๋ธ ์ˆ˜์ •
LoRA๐Ÿ‘ ์ข‹์Œโœ… ๋งค์šฐ ํšจ์œจ์ ๊ต์ฒด ๊ฐ€๋Šฅ, QLoRA๋กœ ๋” ๋น ๋ฆ„
Soft Prompting๐Ÿ˜Š ๊ดœ์ฐฎ์Œโœ… ์•„์ฃผ ํšจ์œจ์ ๊ฐ„๋‹จํ•˜๊ณ  ๋น ๋ฆ„

Using large language models

ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง(prompt engineering)๊ณผ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•(sampling techniques)์€ LLM์˜ ์„ฑ๋Šฅ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค. ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์ด๋ž€, ์›ํ•˜๋Š” ๊ฒฐ๊ณผ์™€ ๊ด€๋ จ์„ฑ ์žˆ๋Š” ์ถœ๋ ฅ์„ ์–ป๊ธฐ ์œ„ํ•ด LLM์— ์ž…๋ ฅํ•˜๋Š” ํ…์ŠคํŠธ(ํ”„๋กฌํ”„ํŠธ)๋ฅผ ์„ค๊ณ„ํ•˜๊ณ  ๋‹ค๋“ฌ๋Š” ๊ณผ์ •์„ ๋งํ•œ๋‹ค. ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์€ ์ถœ๋ ฅ ํ† ํฐ์„ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์„ ํƒํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๊ฒฐ๊ณผ์˜ ์ •ํ™•์„ฑ, ์ฐฝ์˜์„ฑ, ๋‹ค์–‘์„ฑ์— ์˜ํ–ฅ์„ ์ค€๋‹ค.

Prompt engineering

๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์€ ๋งค์šฐ ๊ฐ•๋ ฅํ•˜์ง€๋งŒ, ๊ทธ ์ž ์žฌ๋ ฅ์„ ์™„์ „ํžˆ ๋ฐœํœ˜ํ•˜๋ ค๋ฉด ์ ์ ˆํ•œ ์•ˆ๋‚ด๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์€ LLM์ด ์›ํ•˜๋Š” ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋„๋ก ์˜ฌ๋ฐ”๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ์œ ๋„ํ•˜๋Š” ์ค‘์š”ํ•œ ๊ณผ์ •์ด๋‹ค. ์ด ์ž‘์—…์€ ๋ชจ๋ธ์ด ์‚ฌ์‹ค์— ๊ธฐ๋ฐ˜ํ•œ ์‘๋‹ต์„ ํ•˜๋„๋ก ์œ ๋„ํ•˜๊ฑฐ๋‚˜, ์ฐฝ์˜๋ ฅ์„ ๋ฐœํœ˜ํ•˜์—ฌ ์ด์•ผ๊ธฐ๋‚˜ ๋…ธ๋ž˜๋ฅผ ์“ฐ๋„๋ก ์œ ๋„ํ•˜๋Š” ๊ฒƒ ๋“ฑ์„ ํฌํ•จํ•  ์ˆ˜ ์žˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง ์˜ˆ์‹œ๋กœ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒƒ๋“ค์ด ์žˆ๋‹ค.

  • LLM์—๊ฒŒ ๋ช…ํ™•ํ•œ ์ง€์‹œ๋ฅผ ์ œ๊ณตํ•˜๊ธฐ
  • ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•˜๊ธฐ
  • ํ•ต์‹ฌ ํ‚ค์›Œ๋“œ ์‚ฌ์šฉํ•˜๊ธฐ
  • ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๊ฐ•์กฐํ•  ์ˆ˜ ์žˆ๋„๋ก ํฌ๋งทํŒ…
  • ๋ฐฐ๊ฒฝ ์ •๋ณด๋ฅผ ์ถ”๊ฐ€๋กœ ์ œ๊ณตํ•˜๊ธฐ

Few-shot prompting

  • LLM์—๊ฒŒ ์ž‘์—… ์„ค๋ช…๊ณผ ํ•จ๊ป˜, 3~5๊ฐœ ์ •๋„์˜ ์ž˜ ์„ ํƒ๋œ ์˜ˆ์‹œ๋ฅผ ํ•จ๊ป˜ ์ œ๊ณตํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.
  • ์ „๋‹ฌํ•œ ์˜ˆ์‹œ๋“ค์ด LLM์˜ ์‘๋‹ต ๋ฐฉํ–ฅ์„ ์ž˜ ์žก์•„์ฃผ๋„๋ก ๋„์™€์ค€๋‹ค.

Zero-shot prompting

  • ์˜ˆ์‹œ ์—†์ด LLM์—๊ฒŒ ์ง์ ‘ ์ง€์‹œ๋งŒ ์ฃผ๋Š” ๋ฐฉ์‹์ด๋‹ค.
  • LLM์€ ์ž์‹ ์ด ์ด๋ฏธ ํ•™์Šตํ•œ ์ง€์‹์„ ๋ฐ”ํƒ•์œผ๋กœ ์ •๋‹ต์„ ์˜ˆ์ธกํ•œ๋‹ค.
  • ์˜ˆ์‹œ๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์— Zero-shot์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.
  • ๋‹ค๋งŒ, ํ“จ์ƒท๋ณด๋‹ค ์‹ ๋ขฐ๋„๊ฐ€ ๋‚ฎ์„ ์ˆ˜ ์žˆ๋‹ค.

Chain-of-thought prompting

  • ๋ณต์žกํ•œ ์ถ”๋ก ์ด ํ•„์š”ํ•œ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ๋ฐฉ์‹์ด๋‹ค.
  • ๋‹จ์ˆœํžˆ ์งˆ๋ฌธ์„ ๋˜์ง€์ง€ ์•Š๊ณ , ์œ ์‚ฌํ•œ ๋ฌธ์ œ๋ฅผ ๋‹จ๊ณ„๋ณ„๋กœ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ์‹์„ ๋จผ์ € ๋ณด์—ฌ์ค€๋‹ค.
  • ๊ทธ๋Ÿฌ๋ฉด LLM๋„ ์Šค์Šค๋กœ ์ƒ๊ฐ์˜ ํ๋ฆ„(์ถ”๋ก  ๊ณผ์ •)์„ ๋งŒ๋“ค๊ณ  ๋ฌธ์ œ๋ฅผ ์ž‘์€ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ ์„œ ํ•ด๊ฒฐํ•œ ๋‹ค์Œ, ์ตœ์ข… ์ •๋‹ต์„ ๋„์ถœํ•œ๋‹ค.

Sampling Techniques and Parameters

๋Œœ์–‘ํ•œ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์ด ๋ชจ๋ธ์ด ์‹œํ€€์Šค์—์„œ ๋‹ค์Œ ํ† ํฐ์„ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹์„ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. ์ด๋“ค์€ LLM์˜ ์ถœ๋ ฅ์— ๋Œ€ํ•œ ํ’ˆ์งˆ, ์ฐฝ์˜์„ฑ, ๋‹ค์–‘์„ฑ์„ ์ œ์–ดํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋‹ค. ๋‹ค์Œ์€ ๋‹ค์–‘ํ•œ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•๊ณผ ๊ทธ์— ๋”ฐ๋ฅธ ์ค‘์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์˜ ์„ค๋ช…์ด๋‹ค.

  • ๊ทธ๋ฆฌ๋”” ์„œ์น˜(Greedy search) : ๊ฐ ๋‹จ๊ณ„์—์„œ ๊ฐ€์žฅ ํ™•๋ฅ ์ด ๋†’์€ ํ† ํฐ์„ ์„ ํƒํ•œ๋‹ค. ๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ์˜ต์…˜์ด์ง€๋งŒ, ๋ฐ˜๋ณต์ ์ด๊ณ  ์˜ˆ์ธก ๊ฐ€๋Šฅํ•œ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ๋žœ๋ค ์ƒ˜ํ”Œ๋ง(Random sampling) : ์˜ˆ์ธก๋œ ํ™•๋ฅ  ๋ถ„ํฌ์— ๋”ฐ๋ผ ๋‹ค์Œ ํ† ํฐ์„ ์„ ํƒํ•œ๋‹ค. ๊ฐ ํ† ํฐ์€ ํ•ด๋‹น ํ™•๋ฅ ์— ๋น„๋ก€ํ•˜์—ฌ ์ƒ˜ํ”Œ๋ง ๋œ๋‹ค. ๋” ๋†€๋ž๊ณ  ์ฐฝ์˜์ ์ธ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋ง์ด ์•ˆ ๋˜๋Š” ์ถœ๋ ฅ์ด ๋‚˜์˜ฌ ๊ฐ€๋Šฅ์„ฑ๋„ ์ปค์ง„๋‹ค.
  • ์˜จ๋„ ์ƒ˜ํ”Œ๋ง(Temperature sampling) : ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์˜จ๋„ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ์กฐ์ •ํ•œ๋‹ค. ์˜จ๋„๊ฐ€ ๋†’์„์ˆ˜๋ก ๋‹ค์–‘์„ฑ์ด ์ฆ๊ฐ€ํ•˜๊ณ , ์˜จ๋„๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก ํ™•๋ฅ ์ด ๋†’์€ ํ† ํฐ์„ ๋” ์„ ํ˜ธํ•˜๊ฒŒ ๋œ๋‹ค.
  • Top-K sampling : ๊ฐ€์žฅ ํ™•๋ฅ ์ด ๋†’์€ K๊ฐœ์˜ ํ† ํฐ ์ค‘์—์„œ ๋žœ๋คํ•˜๊ฒŒ ์„ ํƒํ•œ๋‹ค. K ๊ฐ’์€ ๋žœ๋ค์„ฑ์˜ ์ •๋„๋ฅผ ์ œ์–ดํ•œ๋‹ค.
  • Top-P sampling : ๋ˆ„์  ํ™•๋ฅ ์ด P๊ฐ€ ๋  ๋•Œ๊นŒ์ง€์˜ ๋™์ ์ธ ํ† ํฐ ์ง‘ํ•ฉ์—์„œ ์ƒ˜ํ”Œ๋งํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ์ด ์ž์‹ ๊ฐ์ด ์—†์„ ๋•Œ๋Š” ๋” ๋งŽ์€ ํ›„๋ณด์—์„œ ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ•˜๊ณ , ์ž์‹ ๊ฐ์ด ์žˆ์„ ๋•Œ๋Š” ํ™•๋ฅ ์ด ๋†’์€ ์†Œ์ˆ˜์˜ ๋‹จ์–ด์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.
  • Best-of-N sampling : ์„œ๋กœ ๋‹ค๋ฅธ N๊ฐœ์˜ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ณ , ์‚ฌ์ „์— ์ •ํ•ด์ง„ ๊ธฐ์ค€(์˜ˆ: ๋ณด์ƒ๋ชจ๋ธ ๋˜๋Š” ๋…ผ๋ฆฌ ์ผ๊ด‘์„ฑ ๊ฒ€์‚ฌ)์— ๋”ฐ๋ผ ๊ฐ€์žฅ ์ข‹์€ ์‘๋‹ต์„ ์„ ํƒํ•œ๋‹ค. ์ด ๋ฐฉ์‹์€ ์งง์€ ๋ฌธ์žฅ์ด๋‚˜ ๋…ผ๋ฆฌ์™€ ์ถ”๋ก ์ด ์ค‘์š”ํ•œ ์ƒํ™ฉ์—์„œ ํŠนํžˆ ์œ ์šฉํ•˜๋‹ค.

Task-based Evaluation

LLM์˜ ๋“ฑ์žฅ์€ AI ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๊ฐœ๋ฐœ์˜ ์žฅ๋ฒฝ์„ ๋‚ฎ์ท„์ง€๋งŒ, ์ตœ์†Œ ๊ธฐ๋Šฅ ์ œํ’ˆ(MVP)์—์„œ ์‹ค์ œ ์šด์˜ ํ™˜๊ฒฝ(Production)์œผ๋กœ ์ „ํ™˜ํ•˜๋Š” ๊ณผ์ •์—์„œ๋Š” ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง, ๋ชจ๋ธ ์„ ํƒ, ์„ฑ๋Šฅ ๋ชจ๋‹ˆํ„ฐ๋ง๊ณผ ๊ฐ™์€ ์—ฌ๋Ÿฌ ๋„์ „ ๊ณผ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ƒํ™ฉ์„ ์ž˜ ํ•ด์ณ ๋‚˜๊ฐ€๋ ค๋ฉด, ๊ธฐ๋Šฅ์„ฑ๊ณผ ์‚ฌ์šฉ์ž ๊ฒฝํ—˜์„ ๊ฒ€์ฆํ•˜๊ณ , ์ž ์žฌ์ ์ธ ๋ฌธ์ œ๋ฅผ ์‹๋ณ„ํ•˜๋ฉฐ, ๋ชจ๋ธ์˜ ๊ธฐ๋Šฅ์— ๋Œ€ํ•œ ์†Œํ†ต์„ ๋•๊ณ , ๊ฐœ์„  ๋กœ๋“œ๋งต์„ ์ˆ˜๋ฆฝํ•  ์ˆ˜ ์žˆ๋Š” ๋งž์ถคํ˜• ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ํ•„์ˆ˜์ ์ด๋‹ค. ๋งž์ถคํ˜• ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜๊ธฐ ์œ„ํ•ด, ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๊ฐœ๋ฐœ์ž๋Š” ์ž์ฒด ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ, ๊ฐœ๋ฐœ ๋งฅ๋ฝ, โ€œ์ข‹์€ ์„ฑ๋Šฅโ€์— ๋Œ€ํ•œ ์ •์˜๋ฅผ ์ œ๊ณตํ•ด์•ผ ํ•œ๋‹ค.

  • ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ : LLM์˜ ๊ธฐ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ณต๊ฐœ ๋ฆฌ๋”๋ณด๋“œ๋Š”, ๋ณด๋‹ค ๋งž์ถคํ™”๋œ ํ‰๊ฐ€ ๋ฐฉ์‹์ด ํ•„์š”ํ•œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๊ฐœ๋ฐœ์ž์—๊ฒŒ๋Š” ๋ถ€์กฑํ•  ์ˆ˜ ์žˆ๋‹ค. ์‹ค์ œ ์šด์˜ ํŠธ๋ž˜ํ”ฝ์„ ์ตœ๋Œ€ํ•œ ๋ฐ˜์˜ํ•˜๋Š” ์ „์šฉ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š”ํ•˜๋‹ค. ํ”„๋กœํ† ํƒ€์ดํ•‘ ๋‹จ๊ณ„์—์„œ๋Š” ์‚ฌ๋žŒ์ด ์ง์ ‘ ์„ ๋ณ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ์‹ค์ œ ์‚ฌ์šฉ์ž ์ƒํ˜ธ์ž‘์šฉ, ์šด์˜ ๋กœ๊ทธ, ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•œ ์ธ๊ณต ์ƒ์„ฑ ๋ฐ์ดํ„ฐ ๋“ฑ์œผ๋กœ ๊ณ„์†ํ•ด์„œ ํ™•์žฅํ•ด ๋‚˜๊ฐˆ ์ˆ˜ ์žˆ๋‹ค.

  • ๊ฐœ๋ฐœ ๋งฅ๋ฝ : ํ‰๊ฐ€๋Š” ๋‹จ์ˆœํžˆ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ๋งŒ ๋ณด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•(์˜ˆ, RAG), ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ์›Œํฌํ”Œ๋กœ์šฐ ๋“ฑ ์ „์ฒด ์‹œ์Šคํ…œ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ํฌํ•จํ•ด ๋ถ„์„๋˜์–ด์•ผ ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ๋ฒ•์€ ๋ชจ๋“  ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์–ด๋–ป๊ฒŒ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์˜ ์ „์ฒด ์„ฑ๋Šฅ์— ๊ธฐ์—ฌํ•˜๋Š”์ง€๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค.

  • ์ข‹์€ ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ์ •์˜ : ์ „ํ†ต์ ์ธ ํ‰๊ฐ€์ง€ํ‘œ๋Š” ๋‹จ ํ•˜๋‚˜์˜ ์ •๋‹ต๊ณผ์˜ ์ผ์น˜๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์˜ˆ์ƒ์น˜ ๋ชปํ•œ ํ•ด๋‹ต์„ ๋ถ€๋‹นํ•˜๊ฒŒ ๋‚ฎ๊ฒŒ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค. LLM์„ ์‚ฌ์šฉํ•  ๋•Œ๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ๋‹จ์ˆœํ•œ ์ •๋‹ต ์œ ์‚ฌ๋„ ๊ธฐ์ค€์„ ๋„˜์–ด์„œ, ๋น„์ฆˆ๋‹ˆ์Šค ๋ชฉํ‘œ๋ฅผ ๋ฐ˜์˜ํ•œ ๋ฐ์ดํ„ฐ์…‹ ์ˆ˜์ค€์˜ ๊ธฐ์ค€์ด๋‚˜ ์ž…๋ ฅ๋œ ์‚ฌ์šฉ์ž ์ง€์นจ์— ๋”ฐ๋ผ ์ถœ๋ ฅ์˜ ํ•ต์‹ฌ ์š”์†Œ๋ฅผ ํฌ์ฐฉํ•˜๋Š” ์ฑ„์  ๊ธฐ์ค€(๋ฃจ๋ธŒ๋ฆญ, rubrics)์„ ์„ค์ •ํ•˜๋Š” ๊ฒƒ์ด ๋ฐ”๋žŒ์งํ•˜๋‹ค.

์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๊ฐœ๋ฐœ์ž๊ฐ€ LLM ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” 3๊ฐ€์ง€ ๋ฐฉ๋ฒ•

  • ์ „ํ†ต์ ์ธ ํ‰๊ฐ€ ๋ฐฉ๋ฒ• : ์ •๋Ÿ‰์ ์ธ ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ๊ณผ ์ด์ƒ์ ์ธ ์‘๋‹ต์„ ๋น„๊ตํ•œ๋‹ค. ์ด ๋ฐฉ์‹์€ ๊ฐ๊ด€์ ์ธ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•˜๋ ค ํ•˜์ง€๋งŒ, ์ฐฝ์˜์ ์ด๊ฑฐ๋‚˜ ์˜ˆ์ƒ ๋ฐ–์˜ ์ถœ๋ ฅ์—๋Š” ๋ถˆ๋ฆฌํ•˜์—ฌ ์ •๋‹ต์ด ์—ฌ๋Ÿฌ ๊ฐœ์ธ ์ƒ์„ฑ ์ž‘์—…์—๋Š” ์ œํ•œ์ ์ผ ์ˆ˜ ์žˆ๋‹ค.
  • ์ธ๊ฐ„ ํ‰๊ฐ€ : ๊ฐ€์žฅ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ์—ฌ๊ฒจ์ง€๋ฉฐ, ์‚ฌ๋žŒ์˜ ํŒ๋‹จ์€ ๋ณต์žกํ•œ ์ƒ์„ฑ ์ถœ๋ ฅ์— ๋Œ€ํ•ด ์ •๊ตํ•œ ํ‰๊ฐ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
  • LLM ๊ธฐ๋ฐ˜ ์ž๋™ ํ‰๊ฐ€๊ธฐ : LLM ๊ธฐ๋ฐ˜ ์ž๋™ ํ‰๊ฐ€๊ธฐ๋Š” ์‚ฌ๋žŒ์˜ ํŒ๋‹จ์„ ๋ชจ๋ฐฉํ•˜๋ ค ํ•˜๋ฉฐ, ํ™•์žฅ์„ฑ๊ณผ ํšจ์œจ์„ฑ์„ ๊ฐ–์ถ˜ ํ‰๊ฐ€๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ์ „ํ†ต์ ์ธ ๊ณ„์‚ฐ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๊ณผ๋Š” ๋‹ฌ๋ฆฌ, ์ฐธ์กฐ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋“  ์—†๋“  ์ž‘๋™ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ธฐ๋ณธ์ ์ธ ์„ค์ •์—์„œ๋Š” ์ž‘์—…(task), ํ‰๊ฐ€ ๊ธฐ์ค€(criteria), ํ›„๋ณด ์‘๋‹ต๋“ค(candidate responses)์„ ์ œ๊ณตํ•˜๊ณ (์ฐธ์กฐ ์‘๋‹ต์ด ์žˆ๋‹ค๋ฉด ํฌํ•จ), ์ž๋™ ํ‰๊ฐ€๊ธฐ๋Š” ์ด๋ฅผ ํ™œ์šฉํ•ด LLM ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๊ณ  ๋ถ„์„ํ•˜์—ฌ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. ์ž๋™ ํ‰๊ฐ€๊ธฐ๋Š” ์ตœ์ข… ์ถœ๋ ฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๊ทธ ๊ฒฐ์ •์— ๋Œ€ํ•œ ๊ทผ๊ฑฐ(reasoning)๋„ ์‚ฌ์šฉ์ž์—๊ฒŒ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค.
    • ์ผ๋ฐ˜์ ์ธ ์ƒ์„ฑํ˜• ๋ชจ๋ธ ์™ธ์—๋„ ๋ณด์ƒ ๋ชจ๋ธ์ด๋‚˜ ํŒ๋ณ„ ๋ชจ๋ธ๋„ ํ‰๊ฐ€๊ธฐ์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. ๋ฌด์—‡๋ณด๋‹ค๋„ ๋ชจ๋“  ์ธก์ • ๋„๊ตฌ์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ž๋™ ํ‰๊ฐ€๊ธฐ๋„ ๋ณด์ •์ด ํ•„์š”ํ•˜๋‹ค.
  • ๋ฉ”ํƒ€ ํ‰๊ฐ€ : ์ž๋™ ํ‰๊ฐ€๊ธฐ ์ถœ๋ ฅ๊ณผ ์ธ๊ฐ„ ํŒ๋‹จ์„ ๋น„๊ตํ•˜๋Š” ๊ฒƒ. ํ‰๊ฐ€๊ธฐ๊ฐ€ ์›ํ•˜๋Š” ์„ ํ˜ธ๋„์— ๋งž์ถฐ ์กฐ์ •๋˜์—ˆ๋Š”์ง€๋ฅผ ํ™•์ธํ•˜๋Š” ๊ณผ์ •์ด๋‹ค. ์ด ๋ณด์ •์€ ๋ณดํ†ต, ๋ชจ๋ธ ์„ ํ˜ธ๋„ ์ผ์น˜์œจ์ด๋‚˜ ์ƒ๊ด€ ๊ณ„์ˆ˜์™€ ๊ฐ™์€ ์ง€ํ‘œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ˆ˜ํ–‰๋˜๋ฉฐ, ํ‰๊ฐ€ ์ž‘์—…์— ๋งž์ถฐ ์กฐ์ •๋œ๋‹ค. ๋ฉ”ํƒ€ ํ‰๊ฐ€์—์„œ๋Š” ์ž๋™ ํ‰๊ฐ€๊ธฐ์˜ ์ž ์žฌ์ ์ธ ํ•œ๊ณ„๋„ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.

Accelerating inference

(์ถ”๋ก  ๊ฐ€์†ํ™”) Kaplan ๋“ฑ์˜ ์—ฐ๊ตฌ์—์„œ ์ฒ˜์Œ ์ œ์‹œ๋œ LLM์˜ ํ™•์žฅ ๋ฒ•์น™์€ ์˜ค๋Š˜๋‚ ๊นŒ์ง€๋„ ์œ ํšจํ•˜๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋Š” ์ง€์†์ ์œผ๋กœ ์ปค์ ธ์™”์œผ๋ฉฐ, ์ด๋Š” ์ตœ๊ทผ ๋ช‡ ๋…„๊ฐ„ ๋ชจ๋ธ์˜ ํ’ˆ์งˆ๊ณผ ์ •ํ™•๋„๊ฐ€ ํฌ๊ฒŒ ํ–ฅ์ƒ๋œ ์ฃผ์š” ์›์ธ์ด ๋˜์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ํ’ˆ์งˆ์€ ์ข‹์•„์ง€์ง€๋งŒ, ์ด๋ฅผ ์‹คํ–‰ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๊ณ„์‚ฐ ์ž์›๋„ ํ•จ๊ป˜ ์ฆ๊ฐ€ํ•˜๊ฒŒ ๋œ๋‹ค. ๊ทธ๋ž˜์„œ ๊ฐœ๋ฐœ์ž๋“ค์€ ๋ชจ๋ธ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ œ๊ณตํ•˜๋Š” ๋น„์šฉ๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ํšจ์œจํ™” ๋ฐฉ์•ˆ์„ ์—ฐ๊ตฌํ•ด์™”๋‹ค. ๋ชจ๋ธ์„ ์„œ๋น„์Šคํ•  ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ์‹œ๊ฐ„, ๋น„์šฉ, ์—๋„ˆ์ง€๋ฅผ ๊ท ํ˜• ์žˆ๊ฒŒ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์„ ์„ฑ๋Šฅ-๋น„์šฉ ๊ท ํ˜•(cost-performance tradeoff)์ด๋ผ๊ณ  ํ•˜๋ฉฐ, ์ด๋Š” ์‚ฌ์šฉ ์‚ฌ๋ก€์— ๋”ฐ๋ผ ์กฐ์ •์ด ํ•„์š”ํ•˜๋‹ค.

LLM์ด ์‚ฌ์šฉํ•˜๋Š” ์ฃผ์š” ์ž์› LLM์ด ์‚ฌ์šฉํ•˜๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์ž์›์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  1. ๋ฉ”๋ชจ๋ฆฌ
  2. ์—ฐ์‚ฐ ๋Šฅ๋ ฅ

์ถ”๋ก  ์†๋„๋ฅผ ๋†’์ด๊ธฐ ์œ„ํ•œ ๊ธฐ์ˆ ์€ ์ฃผ๋กœ ์ด ๋‘ ๊ฐ€์ง€ ์ž์›์— ์ง‘์ค‘ํ•œ๋‹ค. ๋˜ํ•œ ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ ์žฅ์น˜ ์‚ฌ์ด์˜ ์—ฐ๊ฒฐ ์†๋„๋„ ์ค‘์š”ํ•œ๋ฐ, ์ด ๋ถ€๋ถ„์€ ์ผ๋ฐ˜์ ์œผ๋กœ ํ•˜๋“œ์›จ์–ด์˜ ์ œ์•ฝ์„ ๋ฐ›๋Š”๋‹ค. LLM์€ ์ง€๋‚œ ๋ช‡ ๋…„ ์‚ฌ์ด ์ˆ˜๋ฐฑ๋งŒ์—์„œ ์ˆ˜์‹ญ์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ 1000๋ฐฐ ์ด์ƒ ์ปค์กŒ์œผ๋ฉฐ, ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก

  • ๋ชจ๋ธ์„ ์ €์žฅํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๋ฉ”๋ชจ๋ฆฌ ํฌ๊ธฐ
  • ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์—ฐ์‚ฐ๋Ÿ‰ ๋ชจ๋‘ ์ฆ๊ฐ€ํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค.

์™œ ์ถ”๋ก  ๊ฐ€์†ํ™”๊ฐ€ ์ค‘์š”ํ• ๊นŒ? LLM์ด ์ ์  ๋” ๋Œ€๊ทœ๋ชจ ์‹œ์Šคํ…œ์ด๋‚˜ ์ง€์—ฐ ์‹œ๊ฐ„์ด ๋งค์šฐ ์งง์•„์•ผ ํ•˜๋Š” ์ƒํ™ฉ์— ๋„์ž…๋˜๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ถ”๋ก  ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ฐพ๋Š” ๊ฒƒ์€ ๋งค์šฐ ์ค‘์š”ํ•œ ์—ฐ๊ตฌ ์ฃผ์ œ๊ฐ€ ๋˜์—ˆ๊ณ , ๊ทธ์— ๋”ฐ๋ผ ๋งŽ์€ ๋ฐœ์ „์ด ์ด๋ฃจ์–ด์ง€๊ณ  ์žˆ์—ˆ๋‹ค. ์ด์ œ ์ถ”๋ก ์„ ๊ฐ€์†ํ™”ํ•˜๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋“ค๊ณผ ๊ทธ์— ๋”ฐ๋ฅธ ๋ช‡ ๊ฐ€์ง€ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„(์žฅ๋‹จ์  ๊ท ํ˜•)๋ฅผ ์‚ดํŽด๋ณด๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค.

Trade offs

๋งŽ์€ ์ถ”๋ก  ์ตœ์ ํ™” ๊ธฐ๋ฒ•๋“ค์€ ์—ฌ๋Ÿฌ ์š”์†Œ ๊ฐ„์˜ ๊ท ํ˜•์„ ์š”๊ตฌํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ท ํ˜•์€ ์ƒํ™ฉ์— ๋”ฐ๋ผ ์กฐ์ • ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์‚ฌ์šฉ ๋ชฉ์ ๊ณผ ์š”๊ตฌ์‚ฌํ•ญ์— ๋งž์ถฐ ๋งž์ถคํ˜• ์ ‘๊ทผ ๋ฐฉ์‹์„ ์„ค๊ณ„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค€๋‹ค. ์•ž์œผ๋กœ ๋‹ค๋ฃฐ ๋‹ค์–‘ํ•œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•๋“ค๋„ ์ด๋Ÿฌํ•œ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ์ŠคํŽ™ํŠธ๋Ÿผ ์–ด๋”˜๊ฐ€์— ์œ„์น˜ํ•ด ์žˆ์„ ๊ฒƒ์ด๋‹ค.

์˜ˆ๋“ค ๋“ค์–ด,

  • ์ง€์—ฐ ์‹œ๊ฐ„(Latency) vs ํ’ˆ์งˆ(Quality)
  • ๋น„์šฉ(Cost) vs ์ •ํ™•๋„(Accuracy) ๊ฐ™์€ ์š”์†Œ๋“ค ์‚ฌ์ด์—์„œ ํ•œ ๊ฐ€์ง€๋ฅผ ์•ฝ๊ฐ„ ํฌ๊ธฐํ•˜๊ณ  ๋‹ค๋ฅธ ์š”์†Œ๋ฅผ ๊ฐœ์„ ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ํ•˜์ง€๋งŒ ์—ฌ๊ธฐ์„œ ์™„์ „ํžˆ ํ•˜๋‚˜๋ฅผ ํฌ์ƒํ•œ๋‹ค๋Š” ์˜๋ฏธ๋Š” ์•„๋‹ˆ๋‹ค. ๋‹จ์ง€ ์–ด๋–ค ์š”์†Œ์˜ ํ’ˆ์งˆ์ด๋‚˜ ์†๋„, ๋น„์šฉ์—์„œ ์•ฝ๊ฐ„์˜ ์ €ํ•˜๋ฅผ ๊ฐ์ˆ˜ํ•˜๋ฉด์„œ ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ์š”์†Œ์—์„œ ํฐ ํ–ฅ์ƒ์„ ์–ป๋Š”๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค.

The Latency vs Cost Tradeoff

๋ชจ๋ธ ์ •ํ™•๋„์˜ ์•„์ฃผ ์ž‘์€(ํ˜น์€ ๊ฑฐ์˜ ์—†๋Š”) ์ €ํ•˜๋ฅผ ๊ฐ์ˆ˜ํ•˜๋ฉด, ์ถ”๋ก  ์†๋„์™€ ๋น„์šฉ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด

  • ์ž‘์€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด์„œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋ฉด ๊ณ„์‚ฐ์ด ๋นจ๋ผ์ง€๊ณ  ๋น„์šฉ์ด ์ค„์–ด๋“ ๋‹ค.
  • ์–‘์žํ™”(Quantisation)๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ •๋ฐ€๋„(precision)๋ฅผ ๋‚ฎ์ถ”๋ฉด, ์—ฐ์‚ฐ์ด ๋” ๋น ๋ฅด๊ณ  ๋ฉ”๋ชจ๋ฆฌ๋„ ์ ๊ฒŒ ์‚ฌ์šฉ๋œ๋‹ค.

์ด ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ ‘๊ทผํ•  ๋•Œ ์ค‘์š”ํ•œ ์ ์€ ๋‹ค์Œ ๋‘ ๊ฐ€์ง€๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

  1. ์ด๋ก ์ ์œผ๋กœ ํ’ˆ์งˆ์ด ์ €ํ•˜๋  ๊ฐ€๋Šฅ์„ฑ
  2. ์‹ค์ œ๋กœ ๊ทธ ๋ชจ๋ธ์ด ๊ทธ ์ž‘์—…์„ ์ž˜ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€(์‹ค์šฉ์ ์ธ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ) ์ด ๋‘ ๊ฐ€์ง€๋Š” ์‚ฌ์šฉ ์‚ฌ๋ก€(use case)์— ๋”ฐ๋ผ ๋‹ค๋ฅด๋ฉฐ, ๋งŽ์€ ๊ฒฝ์šฐ ์‹ค์ œ ํ’ˆ์งˆ ์ €ํ•˜ ์—†์ด๋„ ์ •ํ™•๋„๋ฅผ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ๋ชจ๋ธ์—๊ฒŒ ์‹œํ‚ค๋ ค๋Š” ์ž‘์—…์ด ๊ฐ„๋‹จํ•œ ์ž‘์—…์ด๋ผ๋ฉด ์ž‘์€ ๋ชจ๋ธ์ด๋‚˜ ์–‘์žํ™”๋œ ๋ชจ๋ธ๋„ ๊ทธ ์ž‘์—…์„ ์ถฉ๋ถ„ํžˆ ์ž˜ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ์ค„์ด๊ฑฐ๋‚˜ ์ •๋ฐ€๋„๋ฅผ ๋‚ฎ์ท„๋‹ค๊ณ  ํ•ด์„œ ๊ทธ ์ž‘์—…์— ๋Œ€ํ•ด ์„ฑ๋Šฅ์ด ๋ฌด์กฐ๊ฑด ๋–จ์–ด์ง€๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค.

Output-approximating methods

Quantization(์–‘์žํ™”)

LLM์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ์ˆซ์ž ํ–‰๋ ฌ๋“ค(๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜)๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค. ์ถ”๋ก  ๊ณผ์ •(inference)์—์„œ ์ด ๊ฐ€์ค‘์น˜๋“ค์— ํ–‰๋ ฌ ์—ฐ์‚ฐ(matrix operation)์„ ์ ์šฉํ•˜์—ฌ ์ˆซ์ž ์ถœ๋ ฅ๊ฐ’๋“ค(ํ™œ์„ฑํ™”๊ฐ’, activations)์„ ์ƒ์„ฑํ•œ๋‹ค. ์–‘์žํ™”(Quantization)๋ž€, ๊ฐ€์ค‘์น˜์™€ ํ™œ์„ฑํ™”๊ฐ’์„ ์ €์žฅ, ์ „๋‹ฌ, ์—ฐ์‚ฐํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ์ˆซ์ž์˜ ์ •๋ฐ€๋„(precision)๋ฅผ ๋‚ฎ์ถ”๋Š” ๊ณผ์ •์ด๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฐ€์ค‘์น˜์™€ ํ™œ์„ฑํ™” ๊ฐ’์€ 32๋น„ํŠธ ๋ถ€๋™์†Œ์ˆ˜์ (floating-point)์ˆซ์ž๋กœ ํ‘œํ˜„๋˜์ง€๋งŒ, ์–‘์žํ™”๋ฅผ ์ ์šฉํ•˜๋ฉด ์ด๋ฅผ 8๋น„ํŠธ ๋˜๋Š” ์‹ฌ์ง€์–ด 4๋น„ํŠธ ์ •์ˆ˜(integer)๋กœ ๋‚ฎ์ถœ ์ˆ˜ ์žˆ๋‹ค.

์–‘์žํ™”์˜ ์ฃผ์š” ์žฅ์ 

  1. ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰ ๊ฐ์†Œ
    • ๋” ํฐ ๋ชจ๋ธ์„ ๊ฐ™์€ ํ•˜๋“œ์›จ์–ด์— ํƒ‘์žฌ ๊ฐ€๋Šฅ
  2. ์—ฐ์‚ฐ ์ค‘ ๋ฐ์ดํ„ฐ ์ „๋‹ฌ ์†๋„ ํ–ฅ์ƒ
    • ํ•œ ์นฉ ๋‚ด๋ถ€ ๋˜๋Š” ์—ฌ๋Ÿฌ ์นฉ ๊ฐ„์˜ ๊ฐ€์ค‘์น˜ ๋ฐ ํ™œ์„ฑํ™”๊ฐ’ ์ „๋‹ฌ ์†๋„ ๊ฐœ์„ 
    • ํ†ต์‹  ์ง€์—ฐ(latency) ๊ฐ์†Œ = ์ถ”๋ก  ์†๋„ ํ–ฅ์ƒ
  3. ๋” ๋น ๋ฅธ ์‚ฐ์ˆ  ์—ฐ์‚ฐ ๊ฐ€๋Šฅ
    • ์ผ๋ถ€ ํ•˜๋“œ์›จ์–ด(GPU, TPU)๋Š” ๋‚ฎ์€ ์ •๋ฐ€๋„์˜ ํ–‰๋ ฌ ๊ณฑ ์—ฐ์‚ฐ์„ ๋” ๋น ๋ฅด๊ฒŒ ์ง€์›ํ•จ

ํ’ˆ์งˆ(์ •ํ™•๋„)์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ

  • ์–‘์žํ™”๋กœ ์ธํ•œ ํ’ˆ์งˆ ์ €ํ•˜๋Š” ๊ฒฝ๋ฏธํ•˜๊ฑฐ๋‚˜ ์•„์˜ˆ ์—†์„ ์ˆ˜ ์žˆ์Œ
  • ๋งŒ์•ฝ ํ’ˆ์งˆ ์ €ํ•˜๊ฐ€ ๋ฐœ์ƒํ•˜๋”๋ผ๋„, ๊ทธ ์†์‹ค๋ณด๋‹ค ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ํ›จ์”ฌ ๋” ํด ์ˆ˜ ์žˆ์Œ

๐Ÿ“Œ ์˜ˆ์‹œ:
Benoit Jacob ์™ธ ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด,

  • MobileNet SSD์˜ FaceDetection ์ž‘์—…์—์„œ
  • ์ •ํ™•๋„ 2% ๊ฐ์†Œ๋กœ
  • 2๋ฐฐ ์†๋„ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค๊ณ  ๋ณด๊ณ ํ•จ

์–‘์žํ™” ์ ์šฉ ๋ฐฉ์‹

  1. ์ถ”๋ก  ์ „์šฉ ์–‘์žํ™”
    • ํ›ˆ๋ จ์€ 32๋น„ํŠธ๋กœ ํ•˜๊ณ , ์ถ”๋ก  ์‹œ์—๋งŒ ์–‘์žํ™” ์ ์šฉ
  2. ์–‘์žํ™” ์ธ์‹ ํ›ˆ๋ จ
    • ํ›ˆ๋ จ ์ค‘๋ถ€ํ„ฐ ์–‘์žํ™”๋ฅผ ๋ชจ๋ธ์ด ๊ณ ๋ คํ•˜๋„๋ก ํ•™์Šต
    • ์–‘์žํ™”๋กœ ์ธํ•œ ํ’ˆ์งˆ ์ €ํ•˜๋ฅผ ์ผ๋ถ€ ํšŒ๋ณตํ•  ์ˆ˜ ์žˆ์Œ

์ตœ์ ์˜ ํ’ˆ์งˆ/๋น„์šฉ ๊ท ํ˜•์„ ์œ„ํ•œ ์กฐ์ • ์š”์†Œ

  • ๊ฐ€์ค‘์น˜์™€ ํ™œ์„ฑํ™”๊ฐ’์— ๋Œ€ํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ์ •๋ฐ€๋„ ์„ ํƒ
  • ํ…์„œ์— ์–‘์žํ™”๋ฅผ ์ ์šฉํ•  ๋•Œ ์„ธ๋ถ„ํ™” ์ˆ˜์ค€ ์กฐ์ ˆ
    • ์˜ˆ : ์ฑ„๋„ ๋‹จ์œ„(channel-wise) ๋˜๋Š” ๊ทธ๋ฃน ๋‹จ์œ„(group-wise)

์ฆ๋ฅ˜(Distillation)

์ž‘์€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์€ ๊ฐ€์žฅ ํšจ์œจ์ ์ธ ์ถ”๋ก  ์ตœ์ ํ™” ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜์ด๋‹ค. ํ•˜์ง€๋งŒ ์ž‘์€ ๋ชจ๋ธ์€ ๋” ํฐ ๋ชจ๋ธ์— ๋น„ํ•ด ํ’ˆ์งˆ ์ €ํ•˜(regression)๊ฐ€ ํฌ๊ฒŒ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ๋‹ค. ์ฆ๋ฅ˜(Distillation)๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์ผ๋ จ์˜ ํ›ˆ๋ จ ๊ธฐ๋ฒ•์œผ๋กœ ๋” ํฐ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž‘์€ ๋ชจ๋ธ์˜ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ด๋‹ค. ์ด ๋ฐฉ์‹์ด ํšจ๊ณผ์ ์ธ ์ด์œ ๋Š” ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จํ•˜๋”๋ผ๋„, ํฐ ๋ชจ๋ธ์ด ์ž‘์€ ๋ชจ๋ธ๋ณด๋‹ค ํ›จ์”ฌ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ ์ด์œ ๋Š” ์ฃผ๋กœ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์šฉ๋Ÿ‰๊ณผ ํ•™์Šต ๋ฐฉ์‹์— ์žˆ๋‹ค. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์˜ ์–‘์ด ๋งŽ์•„์งˆ์ˆ˜๋ก, ์ด๋Ÿฌํ•œ ์„ฑ๋Šฅ ์ฐจ์ด๋Š” ๊ณ„์†ํ•ด์„œ ๋ฒŒ์–ด์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ ๋ณด์—ฌ์ฃผ๋Š” ๋ฐ”์™€ ๊ฐ™๋‹ค.

๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ ๊ฒฝ์šฐ์—๋„?

๋†€๋ผ์šด ์ ์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์„ ๋•Œ์กฐ์ฐจ๋„, ํฐ ๋ชจ๋ธ์€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ๋œ ์ž‘์€ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ด ์‚ฌ์‹ค์€ ์ฆ๋ฅ˜์˜ ์ฒซ ๋ฒˆ์งธ ๋ฐฉ์‹์ธ ๋ฐ์ดํ„ฐ ์ฆ๋ฅ˜ ๋˜๋Š” ๋ชจ๋ธ ์••์ถ• ๊ธฐ๋ฒ•์œผ๋กœ ์ด์–ด์ง„๋‹ค.

๋ฐฉ๋ฒ•(Method)

  • ๋ณด์œ ํ•œ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ๋œ ํฐ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด ์ถ”๊ฐ€์ ์ธ ์ธ๊ณต ๋ฐ์ดํ„ฐ(ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ, synthetic data)๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.
  • ์ด ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž‘์€ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๋ฉด ์›๋ž˜ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ํ›ˆ๋ จํ–ˆ์„ ๋•Œ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋” ํ–ฅ์ƒ๋œ๋‹ค.

๋‹จ, ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋Š” ๋ฐ˜๋“œ์‹œ ๊ณ ํ’ˆ์งˆ์ด์–ด์•ผ ํ•˜๋ฉฐ, ๊ทธ๋ ‡์ง€ ์•Š์„ ๊ฒฝ์šฐ ์˜คํžˆ๋ ค ๋ถ€์ •์ ์ธ ํšจ๊ณผ๋ฅผ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ฃผ์˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๋” ์ •๋ฐ€ํ•œ ์ˆ˜์ค€์˜ ์ฆ๋ฅ˜ ๊ธฐ๋ฒ•๋“ค

๋‹จ์ˆœํžˆ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ ์™ธ์—๋„ ๋” ์„ธ๋ฐ€ํ•œ ์ˆ˜์ค€์—์„œ Teacher์™€ Student๋ฅผ ๊ฐ€๊นŒ์›Œ์ง€๊ฒŒ ํ•˜๋Š” ๊ธฐ๋ฒ•๋“ค๋„ ์กด์žฌํ•œ๋‹ค.

์ง€์‹ ๋ถ„๋ฅ˜(Knowledge Distillation)

  • Student ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ํ† ํฐ ๋ถ„ํฌ๋ฅผ Teacher ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ๋ถ„ํฌ์™€ ๋งž์ถ”๋„๋ก ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.
  • ์ด ๋ฐฉ๋ฒ•์€ ๋ฐ์ดํ„ฐ ์ฆ๋ฅ˜๋ณด๋‹ค ๋” ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ํšจ์œจ์ ์ธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค.

์˜จ-ํด๋ฆฌ์‹œ ์ฆ๋ฅ˜(On-policy Distillation)

  • ๊ฐ•ํ™”ํ•™์Šต ํ™˜๊ฒฝ์—์„œ Student ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ๊ฐ ์‹œํ€€์Šค์— ๋Œ€ํ•ด Teacher ๋ชจ๋ธ์ด ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•˜๋ฉฐ ํ•™์Šต์„ ๋•๋Š” ๋ฐฉ์‹์ด๋‹ค.

Output-preserving methods

Flash Attention

Transformer ์•„ํ‚คํ…์ฒ˜์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š” Scaled Dot-product Attention์€ ์ž…๋ ฅ ๊ธธ์ด์— ๋Œ€ํ•ด ๋ณต์žก๋„๊ฐ€ ์ด์ฐจ ํ•จ์ˆ˜์ธ ์—ฐ์‚ฐ์ด๋‹ค. ๋”ฐ๋ผ์„œ Self-Attention ๊ณ„์‚ฐ์„ ์ตœ์ ํ™”ํ•˜๋ฉด ์ง€์—ฐ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ ์ธก๋ฉด์—์„œ ํฐ ์ด์ ์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. Flash attention์€ Tri Dao ๋“ฑ์ด ์ œ์•ˆํ•œ ๊ธฐ๋ฒ•์œผ๋กœ ์–ดํ…์…˜ ์—ฐ์‚ฐ์„ IO(์ž…์ถœ๋ ฅ) ์นœํ™”์ ์œผ๋กœ ๋งŒ๋“ค์–ด ์ตœ์ ํ™”ํ•œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ๋Š” ๋А๋ฆฐ ๊ณ ๋Œ€์—ญํญ ๋ฉ”๋ชจ๋ฆฌ(HBM)์™€ ๋น ๋ฅธ ๋ฉ”๋ชจ๋ฆฌ(SRAM/VEM)๊ฐ„์˜ ๋ฐ์ดํ„ฐ ์ด๋™์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘”๋‹ค. ์–ดํ…์…˜์„ ๊ณ„์‚ฐํ•  ๋•Œ, ์—ฐ์‚ฐ ์ˆœ์„œ๋ฅผ ๋ณ€๊ฒฝํ•˜๊ณ  ์—ฌ๋Ÿฌ ์ธต์„ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜์—ฌ ๋น ๋ฅธ ๋ฉ”๋ชจ๋ฆฌ ๊ณ„์ธต์„ ์ตœ๋Œ€ํ•œ ํšจ์œจ์ ์œผ๋กœ ํ™œ๋™ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค.

Flash Attention์€ ๊ทผ์‚ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์•„๋‹ˆ๊ณ  ์ •ํ™•ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ์ฆ‰ ์–ดํ…์…˜ ๊ณ„์‚ฐ์˜ ์ˆซ์ž ์ถœ๋ ฅ๊ฐ’์ด ๊ธฐ์กด๊ณผ ๋™์ผํ•˜๊ฒŒ ์œ ์ง€ํ•˜๋ฉด์„œ ๋น ๋ฅด๊ฒŒ ๊ณ„์‚ฐ๋  ์ˆ˜ ์žˆ๋„๋ก ์ตœ์ ํ™”๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

Prefix Caching

LLM ์ถ”๋ก  ๊ณผ์ •์—์„œ ๊ฐ€์žฅ ์—ฐ์‚ฐ๋Ÿ‰์ด ๋งŽ๊ณ  ๋А๋ฆฐ ์ž‘์—… ์ค‘ ํ•˜๋‚˜๋Š” ์ž…๋ ฅ์— ๋Œ€ํ•ด ์–ดํ…์…˜ ํ‚ค(key)์™€ ๋ฒจ๋ฅ˜(Value)๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์ž‘์—…์ด๋‹ค. ์ด ์ž‘์—…์€ ๋ณดํ†ต ํ”„๋ฆฌํ•„(prefill)์ด๋ผ๊ณ  ๋ถˆ๋ฆฐ๋‹ค. ํ”„๋ฆฌํ•„์˜ ์ตœ์ข… ๊ฒฐ๊ณผ๋ฌผ์€ KV Chache์ธ๋ฐ, ์ด๋Š” ์ž…๋ ฅ ์ „์ฒด์— ๋Œ€ํ•ด ๊ฐ ํŠธ๋žœ์Šคํฌ๋จธ ์ธต๋งˆ๋‹ค์˜ ์–ดํ…์…˜ ํ‚ค/๋ฒจ๋ฅ˜ ๊ฐ’์„ ์ €์žฅํ•œ ๊ฒƒ์ด๋‹ค. ์ด KV Chache๋Š” ๋””์ฝ”๋”ฉ ๋‹จ๊ณ„(์ถœ๋ ฅ ํ† ํฐ์„ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •)์—์„œ ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค. ์ด ์บ์‹œ ๋•๋ถ„์— ์˜คํ† ๋ฆฌ๊ทธ๋ ˆ์‹œ๋ธŒ(autoregressive) ๋””์ฝ”๋”ฉ ์ค‘ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์–ดํ…์…˜ ์ ์ˆ˜๋ฅผ ๋งค๋ฒˆ ๋‹ค์‹œ ๊ณ„์‚ฐํ•˜์ง€ ์•Š์•„๋„ ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

ํ”„๋ฆฌํ”ฝ์Šค ์บ์‹ฑ์ด๋ž€? Prefix Chaching์€ ์ด์ „์— ์ƒ์„ฑํ•œ KV ์บ์‹œ๋ฅผ ๋‹ค์Œ ์ถ”๋ก  ์š”์ฒญ์—์„œ๋„ ์žฌ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ํ”„๋ฆฌํ•„ ์—ฐ์‚ฐ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์„ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค. ์ด์œ  :

  • Self-Attention ๋งค์ปค๋‹ˆ์ฆ˜์—์„œ๋Š” ํ† ๋ฅธ์ด ์ž๊ธฐ ์•ž์— ๋‚˜์˜จ ํ† ํฐ์—๋งŒ ์ฃผ์˜๋ฅผ ์ง‘์ค‘ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ด์ „ ์ž…๋ ฅ์ด ๋ณ€ํ•˜์ง€ ์•Š์•˜๋‹ค๋ฉด ๊ทธ ๊ณ„์‚ฐ ๊ฒฐ๊ณผ(KV Cache)๋ฅผ ์žฌ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ƒˆ๋กœ์šด ์ž…๋ ฅ์ด ๊ธฐ์กด ์ž…๋ ฅ์˜ ๋’ค์— ๋ง๋ถ™๋Š” ํ˜•์‹์ด๋ผ๋ฉด, ๊ธฐ์กด ์ž…๋ ฅ์— ๋Œ€ํ•œ ํ”„๋ฆฌํ•„ ์—ฐ์‚ฐ์„ ์ƒ๋žตํ•  ์ˆ˜ ์žˆ๋‹ค.

์œ„์˜ ๊ทธ๋ฆผ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๋ช…ํ•˜๋ฉด,

  1. ์ฒซ ๋ฒˆ์งธ ์‚ฌ์šฉ์ž ์š”์ฒญ : ์ „์ฒด ๋ฌธ์„œ๋ฅผ ํ”„๋ฆฌํ•„ํ•ด์•ผ ํ•˜๋ฏ€๋กœ 500ms ์†Œ์š”
  2. KV ์บ์‹œ ์ €์žฅ : ์ƒ์„ฑ๋œ ์บ์‹œ๋Š” ์ €์žฅ๋จ(๋ฉ”๋ชจ๋ฆฌ ๋˜๋Š” ๋””์Šคํฌ)
  3. ๋‘ ๋ฒˆ์งธ ์‚ฌ์šฉ์ž ์š”์ฒญ : ๋ฌธ์„œ๋Š” ๊ทธ๋Œ€๋กœ์ด๊ณ , ์งˆ๋ฌธ๋งŒ ๋ฐ”๋€Œ์—ˆ์œผ๋ฏ€๋กœ, ๊ธฐ์กด KV ์บ์‹œ๋ฅผ ๋ถˆ๋Ÿฌ์™€ ๋ฌธ์„œ์— ๋Œ€ํ•œ ์žฌ๊ณ„์‚ฐ์„ ์ƒ๋žตํ•จ โ†’ ํฐ ์—ฐ์‚ฐ ์‹œ๊ฐ„๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„ ์ ˆ๊ฐ

ํ”„๋ฆฌํ”ฝ์Šค ์บ์‹œ ์‚ฌ์šฉ ์‹œ ์ฃผ์˜์‚ฌํ•ญ

  • ์ž…๋ ฅ ๊ตฌ์กฐ๊ฐ€ ํ”„๋ฆฌํ”ฝ์Šค ์บ์‹ฑ ์นœํ™”์ ์ด์–ด์•ผ ํ•œ๋‹ค.
  • ์˜ˆ๋ฅผ ๋“ค์–ด, ๋งค๋ฒˆ ์š”์ฒญ ์‹œ์ž‘ ๋ถ€๋ถ„์— ์ƒˆ๋กœ์šด ํƒ€์ž„์Šคํƒฌํ”„๋ฅผ ๋ถ™์ด๋ฉด, ๋งค๋ฒˆ ํ”„๋ฆฌํ”ฝ์Šค๊ฐ€ ๋ฐ”๋€Œ๊ธฐ ๋•Œ๋ฌธ์— ์บ์‹œ๊ฐ€ ๋ฌดํšจํ™”๋œ๋‹ค.

Speculative Decoding

LLM ์ถ”๋ก  ๊ณผ์ •์€ ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋‰œ๋‹ค.

  1. ํ”„๋ฆฌํ•„(prefill)
    • ์—ฌ๋Ÿฌ ํ† ํฐ์— ๋Œ€ํ•ด ๋Œ€๊ทœ๋ชจ ํ–‰๋ ฌ ์—ฐ์‚ฐ์ด ๋ณ‘๋ ฌ๋กœ ์ˆ˜ํ–‰๋˜๋ฉฐ
    • ๊ณ„์‚ฐ ์„ฑ๋Šฅ์— ์˜ํ•ด ์ œํ•œ๋œ๋‹ค.
  2. ๋””์ฝ”๋“œ(decode)
    • ํ† ํฐ์„ ํ•˜๋‚˜์”ฉ ์ˆœ์ฐจ์ ์œผ๋กœ ์ƒ์„ฑํ•ด์•ผ ํ•˜๋ฏ€๋กœ,
    • ๋ฉ”๋ชจ๋ฆฌ ์„ฑ๋Šฅ์— ๋” ํฐ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค.

๋””์ฝ”๋”ฉ์€ ํ† ํฐ์ด ํ•˜๋‚˜์”ฉ ์ˆœ์„œ๋Œ€๋กœ ์ƒ์„ฑ๋˜์–ด์•ผ ํ•˜๋ฏ€๋กœ ๋ณ‘๋ ฌ๋กœ ์†๋„๋ฅผ ๋†’์ด๊ธฐ๊ฐ€ ์–ด๋ ต๋‹ค.(์ž๊ธฐ ์ž์‹  ์•ž์— ๋‚˜์˜จ ํ† ํฐ๋“ค๋งŒ์„ ์ฐธ์กฐํ•˜๋Š” Self-attention ๊ตฌ์กฐ ๋•Œ๋ฌธ)

Batching and Parallelization

์ง€๊ธˆ๊นŒ์ง€ ์†Œ๊ฐœํ•œ ์ตœ์ ํ™” ๊ธฐ๋ฒ•๋“ค์€ ๋Œ€๋ถ€๋ถ„ ๋จธ์‹ ๋Ÿฌ๋‹, ํŠนํžˆ ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜์— ํŠนํ™”๋œ ๊ฒƒ์ด์˜€๋‹ค. ํ•˜์ง€๋งŒ ์ผ๋ฐ˜ ์†Œํ”„ํŠธ์›จ์–ด ์‹œ์Šคํ…œ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์ฒ˜๋ฆฌ๋Ÿ‰๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋‹ค์Œ ๋‘ ๊ฐ€์ง€ ๋ฐฉ์‹์˜ ์กฐํ•ฉ์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

  1. ๊ณ„์‚ฐ๋Ÿ‰์ด ์ ์€ ์ž‘์—…๋“ค์„ ๋ฌถ์–ด(Batch) ์ฒ˜๋ฆฌํ•˜์—ฌ ๋™์ผํ•œ ํ•˜๋“œ์›จ์–ด์—์„œ ์—ฌ๋Ÿฌ ์š”์ฒญ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•จ์œผ๋กœ์จ ๋‚จ๋Š” ์—ฐ์‚ฐ ์ž์›์„ ์ž˜ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ
  2. ๊ณ„์‚ฐ๋Ÿ‰์ด ๋งŽ์€ ์ž‘์—…์„ ๋‚˜๋ˆ ์„œ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌํ•˜๊ณ  ์—ฌ๋Ÿฌ ํ•˜๋“œ์›จ์–ด ์ธ์Šคํ„ด์Šค์— ๋ถ„์‚ฐํ•˜์—ฌ ๋” ๋งŽ์€ ์—ฐ์‚ฐ ๋Šฅ๋ ฅ์„ ํ™•๋ณดํ•˜๊ณ  ๋” ์งง์€ ์ง€์—ฐ ์‹œ๊ฐ„์„ ํ™•๋ณด

LLM์—์„œ์˜ ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ

  • LLM์—์„œ๋Š” ํŠนํžˆ ๋””์ฝ”๋”ฉ ๋‹จ๊ณ„์—์„œ ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ๊ฐ€ ๋งค์šฐ ํšจ๊ณผ์ ์ด๋‹ค.
  • ๋””์ฝ”๋“œ๋Š” ๊ณ„์‚ฐ ์ž์›์— ์˜ํ•œ ๋ณ‘๋ชฉ์ด ์ ๊ธฐ ๋•Œ๋ฌธ์— ์—ฌ๋Ÿฌ ์š”์ฒญ์„ ๋™์‹œ์— ๋ฌถ์–ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์—ฌ์ง€๊ฐ€ ๋งŽ๋‹ค.
  • ๋‹ค๋งŒ, ์ฃผ์˜ํ•ด์•ผ ํ•  ์ ์€:
    • ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ๊ฐ€ ๋‚จ๋Š” ์—ฐ์‚ฐ ์ž์›์„ ์ž˜ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ด๋ค„์ ธ์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ
    • GPU๋‚˜ TPU ๊ฐ™์€ ๊ฐ€์†๊ธฐ์—์„œ ์ด๋ฅผ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์Œ
    • ๋‹คํ‚ค๋„์ด์€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ํฐ ์ž‘์—…์ด๊ธฐ ๋•Œ๋ฌธ์— ๋„ˆ๋ฌด ๋งŽ์€ ์š”์ฒญ์„ ๋ฐฐ์น˜ํ•˜๋ฉด ๋ฉ”๋ชจ๋ฆฌ ๋ถ€์กฑ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Œ
  • ์š”์ฆ˜์€ ๊ณ ์ฒ˜๋ฆฌ๋Ÿ‰ LLM ์ถ”๋ก  ์‹œ์Šคํ…œ์—์„œ๋Š” ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ๊ฐ€ ํ•ต์‹ฌ ๊ตฌ์„ฑ ์š”์†Œ๋กœ ์ž๋ฆฌ ์žก๊ณ  ์žˆ๋‹ค.

Applications

Code and mathematics

Machine translation

Text summarization

Question-answering

Chatbots

Content generation

Natural language inference

Text classification

Text analysis

Multimodal applications

Summary


๐Ÿ“œ์ถœ์ฒ˜(์ฐธ๊ณ  ๋ฌธํ—Œ)


๐Ÿ”—์—ฐ๊ฒฐ ๋ฌธ์„œ