본문 바로가기
AI

Gemma3 vs Grok3 vs Claude3.7

by Nhahan 2025. 3. 15.

로컬에서도 쉽게 돌릴 수 있는 Gemma3이 궁금하여 자료를 찾아봤다.

m1 pro 기본형을 쓰고 있는데 Gemma3 12B 모델까지 잘 돌아가는 것을 확인했다. (팬소리가 시끄럽긴 하다 😅)

 

그럼 Gemma3 27B의 성능은 어떨까?

 

https://www.youtube.com/watch?v=Vy8AozsmX9A

해당 영상에서의 분석 요약이다.

영상에서는 ChatGPT 4o를 쓰고 있지만, 4o는 당연히 질 것이라 생각해 이 글에선 제외했다.

 

 

주요 테스트 및 결과

  • 문제 해결(Reasoning Challenge):
    • 테스트 내용: “겨울에 강 건너편 나무에서 사과를 따는 방법”이라는 논리 퍼즐 문제를 제시.
    • 결과:
      1. Gemma3: 단계별로 여러 해법을 제시하며, 사과가 겨울에 나무에 달리지 않는다는 사실을 고려한 합리적 답변을 제공해 가장 우수한 성능을 보임.
      2. Claude3.7: 사실을 바로 인지해 “겨울에는 사과가 달리지 않는다”는 단순하지만 정확한 답변을 제시.
      3. Grok3: 여러 아이디어를 내었으나 Gemini 3에 비해 다양성이 떨어짐.
  • 콘텐츠 생성(SEO 최적화 기사 작성):
    • 테스트 내용: “SEO training London” 키워드로 SEO 최적화된 기사를 작성하도록 요청.
    • 결과:
      1. Claude3.7: 1,000단어 분량의 내용이 자연스럽고 인간적인 문체로 작성되어 가장 우수한 결과.
      2. Grok3: 1,200단어의 기사로 키워드 최적화는 잘 되어 있으나, Claude보다는 다소 부족한 느낌.
      3. Gemma3: 콘텐츠 생성 속도는 느리고, 다소 AI 특유의 “플러피”한 느낌이 있어 인간적인 표현 면에서 미흡함.
  • 콘텐츠의 인간화 정도(Zero GPT 검출 테스트):
    • 테스트 내용: 각 모델이 생성한 텍스트가 AI 산출물로 검출되는 비율 측정.
    • 결과:
      1. Claude3.7: 약 0.9%로 거의 인간이 작성한 듯한 자연스러운 결과.
      2. Grok3: 약 15%
      3. Gemma3: 약 39.3%로 가장 인위적인 결과를 나타냄.
  • 코딩 능력(자체 실행되는 뱀 게임 제작):
    • 테스트 내용: HTML을 이용해 스스로 플레이하는 뱀 게임 코드를 생성.
    • 결과:
      1. Grok3: 빠르고 정확하게 작동하는 게임을 제작.
      2. Claude3.7: UI 디자인과 다양한 컨트롤 기능을 포함하는 좋은 결과물을 제공.
      3. Gemma3: HTML 코드 실행 시 문제 발생 – 게임이 제대로 동작하지 않고 계속 벽에 부딪히는 등의 오류가 발생.

 

 

모든 분야에서 Claude3.7이 압도하는 결과를 내었고, Gemma의 추론 능력은 좋으나 콘텐츠 생성이나 코딩 능력이 현저히 떨어졌다.

 

로컬에서 Gemma3을 돌리면 괜찮을 것 같긴 한데... 역시 파라미터의 총 크기나 하드웨어 스펙의 벽을 완전히 아직 넘진 못한 듯 하다. 물론 Gemma3는 GPU 하나만 있어도, 혹은 맥북 만으로도 쉽게 돌릴 수가 있긴 하다. 근데 어쨌든 코딩 능력이 현저히 떨어지는게 아쉽다.

 

반면, 하드웨어 요구치가 매우매우 낮은 것도 사실이기에 AI 서비스 만들 때 유용할 것 같다.

 

Gemma 3는 로컬 실행이나 무료 API가 필요한 특정 상황에서만 유용!

 

반응형

댓글