๐Ÿป LLM Pretraining์˜ ์ƒˆ๋กœ์šด ์‹œ๊ทธ๋„, Gumini-1B & 1.5B ์˜คํ”ˆ์†Œ์Šค ๊ณต๊ฐœ ์•ˆ๋…•ํ•˜์„ธ์š”. AI Research Engineer ๊ถŒ๊ตฌ๋ฏผ์ž…๋‹ˆ๋‹ค. ํ•œ๊ตญ์–ดโ€“์˜์–ด ์ด์ค‘์–ธ์–ด LLM, Gumini๋ฅผ ์˜คํ”ˆ์†Œ์Šค๋กœ ๊ณต๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์กฐ ๊ฐœ ํ† ํฐ ๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ์…‹์ด ์žˆ์–ด์•ผ๋งŒ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์–ธ์–ด ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค. Gumini-1.5B๋Š” ๋‹จ 3.14B ํ† ํฐ์œผ๋กœ ํ”„๋ฆฌํŠธ๋ ˆ์ด๋‹๋˜์—ˆ์œผ๋ฉฐ, 5,700๋ฐฐ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์™œ ์ด ํ”„๋กœ์ ํŠธ๋ฅผ ์‹œ์ž‘์„๊นŒ์š”? ํ˜„์žฌ LLM ๊ฐœ๋ฐœ์€ ์‚ฌ์‹ค์ƒ ๋น…ํ…Œํฌ์˜ ๊ฒŒ์ž„์ž…๋‹ˆ๋‹ค. โ€ข ์ˆ˜์กฐ ํ† ํฐ ๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ โ€ข ๋Œ€๊ทœ๋ชจ GPU ํด๋Ÿฌ์Šคํ„ฐ โ€ข ์ˆ˜๋ฐฑ ๋ช… ๋‹จ์œ„์˜ ์—ฐ๊ตฌยท์—”์ง€๋‹ˆ์–ด๋ง ํŒ€ ์—ฐ๊ตฌ์ž๋กœ์„œ, ์ €๋Š” ์ด๊ฒƒ์ด ์œ ์ผํ•œ ๊ธธ์ด๋ผ๋Š” ์ƒ๊ฐ์„ ๋ฐ›์•„๋“ค์ด๊ณ  ์‹ถ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋ฌด์‹ํ•œ ์Šค์ผ€์ผ๋ง๋ณด๋‹ค, ๋˜‘๋˜‘ํ•œ ์•„ํ‚คํ…์ฒ˜์™€ ํ•™์Šต ์„ค๊ณ„๊ฐ€ ๋” ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ•˜๊ณ  ์‹ถ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ โ€ข Gumini-1.5B (1.54B) โ†’ ๋ฒค์น˜๋งˆํฌ((kobest_boolq) ์ข…ํ•ฉ 3์œ„ ์•„๋ž˜ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•ฉ๋‹ˆ๋‹ค: โ€ข Qwen-2.5-1.5B (18T ํ† ํฐ ํ•™์Šต) โ†’ 5,732๋ฐฐ ๋” ๋†’์€ ๋ฐ์ดํ„ฐ ํšจ์œจ โ€ข Llama-3.2-3B (2๋ฐฐ ๋” ํฐ ๋ชจ๋ธ) โ†’ 2,866๋ฐฐ ๋” ๋†’์€ ๋ฐ์ดํ„ฐ ํšจ์œจ โ€ข EXAONE-3.5-2.4B (~6T ํ† ํฐ, LG AI Research) โ†’ ์•ฝ 2,070๋ฐฐ ๋” ๋†’์€ ๋ฐ์ดํ„ฐ ํšจ์œจ ๋ชจ๋“  ๊ฒฐ๊ณผ๋Š” ๋‹จ 3.14B ํ† ํฐ์œผ๋กœ ๋‹ฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” Qwen์˜ ์ „์ฒด ํ•™์Šต ๋ฐ์ดํ„ฐ ๋Œ€๋น„ 0.017%์— ๋ถˆ๊ณผํ•ฉ๋‹ˆ๋‹ค. ์ ์€ ์—ฐ์‚ฐ ์ž์›๊ณผ ๋ฐ์ดํ„ฐ๋กœ๋„ ์–ด๋””๊นŒ์ง€ ๊ฐ€๋Šฅํ•œ์ง€๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๋ถ„๋ช…ํ•œ ์‹ ํ˜ธ๋ผ๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. ๋” ์ž์„ธํ•œ ๋‚ด์šฉ๊ณผ ํ•™์Šต ๋ฐฉ๋ฒ•, ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ, ์ƒ์„ธ ๋ถ„์„์€ ๋ฆฌํฌํŠธ์— ๋ชจ๋‘ ๊ณต๊ฐœ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. Report: ๐Ÿ‘‰ https://gumini-research.github.io/Gumini_sLLM_Report Models: ๐Ÿค—: Gumini-1.5B: https://huggingface.co/GuminiResearch/Gumini-1.5B-Base ๐Ÿค—: Gumini-1B: https://huggingface.co/GuminiResearch/Gumini-1B-Base ๐Ÿค—: GGUF (Quantized): https://huggingface.co/collections/GuminiResearch/gumini-quantization ํ”„๋กœ์ ํŠธ ๋ฐฐ๊ฒฝ & ์ด์•ผ๊ธฐ (LinkedIn) https://www.linkedin.com/posts/devgumin_llm-opensource-pretraining-activity-7407000473544802304-LBSG ๐Ÿ“จ: o3omoomin@gmail.com or o3ogumini@gmail.com
์ฝ˜ํ…์ธ ๋ฅผ ๋” ์ฝ๊ณ  ์‹ถ๋‹ค๋ฉด?
์›ํ‹ฐ๋“œ์— ๊ฐ€์ž…ํ•ด ์ฃผ์„ธ์š”.
๋กœ๊ทธ์ธ ํ›„ ๋ชจ๋“  ๊ธ€์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ใƒป๋Œ“๊ธ€ 1