Gemma3 vs Grok3 vs Claude3.7

로컬에서도 쉽게 돌릴 수 있는 Gemma3이 궁금하여 자료를 찾아봤다.

m1 pro 기본형을 쓰고 있는데 Gemma3 12B 모델까지 잘 돌아가는 것을 확인했다. (팬소리가 시끄럽긴 하다 😅)

그럼 Gemma3 27B의 성능은 어떨까?

https://www.youtube.com/watch?v=Vy8AozsmX9A

해당 영상에서의 분석 요약이다.

영상에서는 ChatGPT 4o를 쓰고 있지만, 4o는 당연히 질 것이라 생각해 이 글에선 제외했다.

주요 테스트 및 결과

문제 해결(Reasoning Challenge):
- 테스트 내용: “겨울에 강 건너편 나무에서 사과를 따는 방법”이라는 논리 퍼즐 문제를 제시.
- 결과:
  1. Gemma3: 단계별로 여러 해법을 제시하며, 사과가 겨울에 나무에 달리지 않는다는 사실을 고려한 합리적 답변을 제공해 가장 우수한 성능을 보임.
  2. Claude3.7: 사실을 바로 인지해 “겨울에는 사과가 달리지 않는다”는 단순하지만 정확한 답변을 제시.
  3. Grok3: 여러 아이디어를 내었으나 Gemini 3에 비해 다양성이 떨어짐.
콘텐츠 생성(SEO 최적화 기사 작성):
- 테스트 내용: “SEO training London” 키워드로 SEO 최적화된 기사를 작성하도록 요청.
- 결과:
  1. Claude3.7: 1,000단어 분량의 내용이 자연스럽고 인간적인 문체로 작성되어 가장 우수한 결과.
  2. Grok3: 1,200단어의 기사로 키워드 최적화는 잘 되어 있으나, Claude보다는 다소 부족한 느낌.
  3. Gemma3: 콘텐츠 생성 속도는 느리고, 다소 AI 특유의 “플러피”한 느낌이 있어 인간적인 표현 면에서 미흡함.
콘텐츠의 인간화 정도(Zero GPT 검출 테스트):
- 테스트 내용: 각 모델이 생성한 텍스트가 AI 산출물로 검출되는 비율 측정.
- 결과:
  1. Claude3.7: 약 0.9%로 거의 인간이 작성한 듯한 자연스러운 결과.
  2. Grok3: 약 15%
  3. Gemma3: 약 39.3%로 가장 인위적인 결과를 나타냄.
코딩 능력(자체 실행되는 뱀 게임 제작):
- 테스트 내용: HTML을 이용해 스스로 플레이하는 뱀 게임 코드를 생성.
- 결과:
  1. Grok3: 빠르고 정확하게 작동하는 게임을 제작.
  2. Claude3.7: UI 디자인과 다양한 컨트롤 기능을 포함하는 좋은 결과물을 제공.
  3. Gemma3: HTML 코드 실행 시 문제 발생 – 게임이 제대로 동작하지 않고 계속 벽에 부딪히는 등의 오류가 발생.

모든 분야에서 Claude3.7이 압도하는 결과를 내었고, Gemma의 추론 능력은 좋으나 콘텐츠 생성이나 코딩 능력이 현저히 떨어졌다.

로컬에서 Gemma3을 돌리면 괜찮을 것 같긴 한데... 역시 파라미터의 총 크기나 하드웨어 스펙의 벽을 완전히 아직 넘진 못한 듯 하다. 물론 Gemma3는 GPU 하나만 있어도, 혹은 맥북 만으로도 쉽게 돌릴 수가 있긴 하다. 근데 어쨌든 코딩 능력이 현저히 떨어지는게 아쉽다.

반면, 하드웨어 요구치가 매우매우 낮은 것도 사실이기에 AI 서비스 만들 때 유용할 것 같다.

Gemma 3는 로컬 실행이나 무료 API가 필요한 특정 상황에서만 유용!

저작자표시 비영리 (새창열림)

'AI' 카테고리의 다른 글

[AI] 프롬프트를 개선하는 프롬프트 (0)	2025.04.24
[AI] 프롬프트 엔지니어링 정리 (2)	2025.04.16
개발자 입장에서 쓸 이유가 없는 GPT-4.5 (0)	2025.03.06
o3-mini는 o1을 대체 가능할까? (o3-mini vs o1) (0)	2025.02.02
[AI hand-on] 1. Single Neuron & ReLU (0)	2024.10.14

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

개발이 그냥 재밌는 사람

Gemma3 vs Grok3 vs Claude3.7

주요 테스트 및 결과

'AI' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Gemma3 vs Grok3 vs Claude3.7

주요 테스트 및 결과

'AI' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역