아래 포스팅에 이어서 안될공학의 이경일 대표 인터뷰 영상을 보고 공부하면서 작성해보는 포스팅이다.
https://kosonkh7.tistory.com/286
그래서 HBM이 왜 중요한가? (AI 시장의 급속 성장과, 메모리 병목, 반도체 미세공정화의 한계와 뉴
https://youtu.be/YVLOpOub68w 위 영상을 보며 공부하고 정리하기 위한 포스팅. 본 영상은 해당 논문에서 시사하는 것을 정리하여 말해주는 것으로 시작한다.https://arxiv.org/abs/2403.14123 AI and Memory WallThe
kosonkh7.tistory.com
언어 모델 시장의 발전을 단계별로 그림으로 나타내시더라.
폭이 분야의 다양성, 깊이가 전문성을 나타낸다고 한다.
GPT2 정도는 현재 기준으로는 5억~10억 정도 소요된다. (누구나 만들 수 있다고 표현할 정도)
GPT3은 데이터 구축부터 학습까지 당시 500억~1000억 정도 사용 (학습 한 번에 60억 정도였다고 하니까)
이제는 AI가 발전하면서 30~40억 정도면 만들 수 있다고 (LLama같은 오픈소스도 나오고)
그런데 GPT4부터는 개념이 달라진다.
OpenAI 조차도 한 번에 학습할 수 없는 규모의 파라미터라서 한 번에 학습이 안되서 나눠서 학습(Moe 개념 알아보기)
어쨌든 분야의 다양성도 전문성도 늘어나고 있는 실정인데,
기술이 있다는 전제에서(중요), 5천억 정도로 만들어볼 수는 있겠다고 추정해보겠으나,
운영 경비가 수 조원이 들 것으로 예상된다.
사실상 한국의 어느 기업도 도전하기 어려운 영역. (비용적으로 감당하더라고, 기술이 있는지도 모름)
그렇다면 한국의 언어모델 스타트업들은 지금 무엇에 초점을 맞추고 있는가?
GPT2 정도는 오픈소스 모델이 많이 있다.
이를 데이터로 Fine Tuning 하여 특정 도메인에 특화된 전문성을 보이는 것을 SLM이라고 한다. (또는 Sllm?)
보통 파라미터는 10B 미만이다. (GPT 수준)
이정도면 H100 한 대 정도면 된다고 (2~3억 정도 듦)
그러다 Llama3 같은 오픈 모델이 공개되었고, 이를 Fine Tuning 하기 시작.
이게 지금 전 세계의 AI기업들과, 국내의 스타트업들이 하고 있는 것.
그러다 LG나 CLOVA X 같은 대기업이 수십억, 수백억 써서 GPT3 수준의 모델을 자체 개발하고 있다고 한다.
특정 분야 만큼은 GPT4보다 전문성을 보이는 특정 도메인 특화된 언어모델 만드는 중이라고.
'데이터사이언스 > 인공지능' 카테고리의 다른 글
로컬에 Gemini 2.5 CLI 설치 및 가벼운 체험 후기 (6) | 2025.07.02 |
---|---|
제조 기업의 AI 도입 및 활용 방안 (실사례 포함) (4) | 2025.06.03 |
그래서 HBM이 왜 중요한가? (AI 시장의 급속 성장과, 메모리 병목, 반도체 미세공정화의 한계와 뉴로모픽) (0) | 2025.01.11 |
유튜브 뮤직의 음악 추천 모델 원리에 대하여 (ft. 트랜스포머) (1) | 2024.12.29 |
네이버 지도 API를 이용하여 GPTs 앱을 만들어보았다. (ft. Vercel 웹서버 배포) (0) | 2024.11.30 |