๐ป LLM Pretraining์ ์๋ก์ด ์๊ทธ๋, Gumini-1B & 1.5B ์คํ์์ค ๊ณต๊ฐ
์๋
ํ์ธ์.
AI Research Engineer ๊ถ๊ตฌ๋ฏผ์
๋๋ค.
ํ๊ตญ์ดโ์์ด ์ด์ค์ธ์ด LLM, Gumini๋ฅผ ์คํ์์ค๋ก ๊ณต๊ฐํฉ๋๋ค.
์์กฐ ๊ฐ ํ ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ์
์ด ์์ด์ผ๋ง ๊ฒฝ์๋ ฅ ์๋ ์ธ์ด ๋ชจ๋ธ์ ๋ง๋ค ์ ์๋ ๊ฒ์ ์๋๋๋ค.
Gumini-1.5B๋ ๋จ 3.14B ํ ํฐ์ผ๋ก ํ๋ฆฌํธ๋ ์ด๋๋์์ผ๋ฉฐ, 5,700๋ฐฐ ๋ ๋ง์ ๋ฐ์ดํฐ๋ก ํ์ต๋ ๋ชจ๋ธ๋ค๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
์ ์ด ํ๋ก์ ํธ๋ฅผ ์์์๊น์?
ํ์ฌ LLM ๊ฐ๋ฐ์ ์ฌ์ค์ ๋น
ํ
ํฌ์ ๊ฒ์์
๋๋ค.
โข ์์กฐ ํ ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ
โข ๋๊ท๋ชจ GPU ํด๋ฌ์คํฐ
โข ์๋ฐฑ ๋ช
๋จ์์ ์ฐ๊ตฌยท์์ง๋์ด๋ง ํ
์ฐ๊ตฌ์๋ก์, ์ ๋ ์ด๊ฒ์ด ์ ์ผํ ๊ธธ์ด๋ผ๋ ์๊ฐ์ ๋ฐ์๋ค์ด๊ณ ์ถ์ง ์์์ต๋๋ค.
๋ฌด์ํ ์ค์ผ์ผ๋ง๋ณด๋ค, ๋๋ํ ์ํคํ
์ฒ์ ํ์ต ์ค๊ณ๊ฐ ๋ ์ค์ํ๋ค๋ ๊ฒ์ ์ฆ๋ช
ํ๊ณ ์ถ์์ต๋๋ค.
๊ทธ ๊ฒฐ๊ณผ
โข Gumini-1.5B (1.54B) โ ๋ฒค์น๋งํฌ((kobest_boolq) ์ข
ํฉ 3์
์๋ ๋ชจ๋ธ๋ค๋ณด๋ค ์ฐ์ํฉ๋๋ค:
โข Qwen-2.5-1.5B (18T ํ ํฐ ํ์ต) โ 5,732๋ฐฐ ๋ ๋์ ๋ฐ์ดํฐ ํจ์จ
โข Llama-3.2-3B (2๋ฐฐ ๋ ํฐ ๋ชจ๋ธ) โ 2,866๋ฐฐ ๋ ๋์ ๋ฐ์ดํฐ ํจ์จ
โข EXAONE-3.5-2.4B (~6T ํ ํฐ, LG AI Research) โ ์ฝ 2,070๋ฐฐ ๋ ๋์ ๋ฐ์ดํฐ ํจ์จ
๋ชจ๋ ๊ฒฐ๊ณผ๋ ๋จ 3.14B ํ ํฐ์ผ๋ก ๋ฌ์ฑ๋์์ต๋๋ค.
์ด๋ Qwen์ ์ ์ฒด ํ์ต ๋ฐ์ดํฐ ๋๋น 0.017%์ ๋ถ๊ณผํฉ๋๋ค.
์ ์ ์ฐ์ฐ ์์๊ณผ ๋ฐ์ดํฐ๋ก๋ ์ด๋๊น์ง ๊ฐ๋ฅํ์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ถ๋ช
ํ ์ ํธ๋ผ๊ณ ์๊ฐํฉ๋๋ค.
๋ ์์ธํ ๋ด์ฉ๊ณผ ํ์ต ๋ฐฉ๋ฒ, ๋ฒค์น๋งํฌ ๊ตฌ์ฑ, ์์ธ ๋ถ์์ ๋ฆฌํฌํธ์ ๋ชจ๋ ๊ณต๊ฐ๋์ด ์์ต๋๋ค.
Report:
๐ https://gumini-research.github.io/Gumini_sLLM_Report
Models:
๐ค: Gumini-1.5B: https://huggingface.co/GuminiResearch/Gumini-1.5B-Base
๐ค: Gumini-1B: https://huggingface.co/GuminiResearch/Gumini-1B-Base
๐ค: GGUF (Quantized): https://huggingface.co/collections/GuminiResearch/gumini-quantization
ํ๋ก์ ํธ ๋ฐฐ๊ฒฝ & ์ด์ผ๊ธฐ (LinkedIn)
https://www.linkedin.com/posts/devgumin_llm-opensource-pretraining-activity-7407000473544802304-LBSG
๐จ: o3omoomin@gmail.com or o3ogumini@gmail.com

์ฝํ
์ธ ๋ฅผ ๋ ์ฝ๊ณ ์ถ๋ค๋ฉด?
์ํฐ๋์ ๊ฐ์
ํด ์ฃผ์ธ์.
๋ก๊ทธ์ธ ํ ๋ชจ๋ ๊ธ์ ๋ณผ ์ ์์ต๋๋ค.
๋ก๊ทธ์ธ ํ ๋ชจ๋ ๊ธ์ ๋ณผ ์ ์์ต๋๋ค.
ใป๋๊ธ 1