🐻 LLM Pretraining의 새로운 시그널, G

개발 ・ 2025.12.17

🐻 LLM Pretraining의 새로운 시그널, Gumini-1B & 1.5B 오픈소스 공개 안녕하세요. AI Research Engineer 권구민입니다. 한국어–영어 이중언어 LLM, Gumini를 오픈소스로 공개합니다. 수조 개 토큰 규모의 데이터셋이 있어야만 경쟁력 있는 언어 모델을 만들 수 있는 것은 아닙니다. Gumini-1.5B는 단 3.14B 토큰으로 프리트레이닝되었으며, 5,700배 더 많은 데이터로 학습된 모델들보다 더 나은 성능을 보였습니다. 왜 이 프로젝트를 시작을까요? 현재 LLM 개발은 사실상 빅테크의 게임입니다. • 수조 토큰 규모의 데이터 • 대규모 GPU 클러스터 • 수백 명 단위의 연구·엔지니어링 팀 연구자로서, 저는 이것이 유일한 길이라는 생각을 받아들이고 싶지 않았습니다. 무식한 스케일링보다, 똑똑한 아키텍처와 학습 설계가 더 중요하다는 것을 증명하고 싶었습니다. 그 결과 • Gumini-1.5B (1.54B) → 벤치마크((kobest_boolq) 종합 3위 아래 모델들보다 우수합니다: • Qwen-2.5-1.5B (18T 토큰 학습) → 5,732배 더 높은 데이터 효율 • Llama-3.2-3B (2배 더 큰 모델) → 2,866배 더 높은 데이터 효율 • EXAONE-3.5-2.4B (~6T 토큰, LG AI Research) → 약 2,070배 더 높은 데이터 효율 모든 결과는 단 3.14B 토큰으로 달성되었습니다. 이는 Qwen의 전체 학습 데이터 대비 0.017%에 불과합니다. 적은 연산 자원과 데이터로도 어디까지 가능한지를 보여주는 분명한 신호라고 생각합니다. 더 자세한 내용과 학습 방법, 벤치마크 구성, 상세 분석은 리포트에 모두 공개되어 있습니다. Report: 👉 https://gumini-research.github.io/Gumini_sLLM_Report Models: 🤗: Gumini-1.5B: https://huggingface.co/GuminiResearch/Gumini-1.5B-Base 🤗: Gumini-1B: https://huggingface.co/GuminiResearch/Gumini-1B-Base 🤗: GGUF (Quantized): https://huggingface.co/collections/GuminiResearch/gumini-quantization 프로젝트 배경 & 이야기 (LinkedIn) https://www.linkedin.com/posts/devgumin_llm-opensource-pretraining-activity-7407000473544802304-LBSG 📨: o3omoomin@gmail.com or o3ogumini@gmail.com

콘텐츠를 더 읽고 싶다면?

원티드에 가입해 주세요.
로그인 후 모든 글을 볼 수 있습니다.

・댓글 1