본문 바로가기

AI47

Gemma3 vs Grok3 vs Claude3.7 로컬에서도 쉽게 돌릴 수 있는 Gemma3이 궁금하여 자료를 찾아봤다.m1 pro 기본형을 쓰고 있는데 Gemma3 12B 모델까지 잘 돌아가는 것을 확인했다. (팬소리가 시끄럽긴 하다 😅) 그럼 Gemma3 27B의 성능은 어떨까? https://www.youtube.com/watch?v=Vy8AozsmX9A해당 영상에서의 분석 요약이다.영상에서는 ChatGPT 4o를 쓰고 있지만, 4o는 당연히 질 것이라 생각해 이 글에선 제외했다.  주요 테스트 및 결과문제 해결(Reasoning Challenge):테스트 내용: “겨울에 강 건너편 나무에서 사과를 따는 방법”이라는 논리 퍼즐 문제를 제시.결과:Gemma3: 단계별로 여러 해법을 제시하며, 사과가 겨울에 나무에 달리지 않는다는 사실을 고려한 합리.. 2025. 3. 15.
개발자 입장에서 쓸 이유가 없는 GPT-4.5 O3-Mini often has upper hand 파란색으로 드래그 된 부분에서 이 글은 더 이상 볼 필요 없다. 끝났다.해당 글에서 o3-mini의 코딩 성능이 우월하다고 적어놓고 있다. GPT-4.5가 감정적인 부분에서 우수하기에 창의적인 글쓰기 활동 등에서는 더 좋다고 하지만, 솔직히 대부분의 ChatGPT 사용자는 개발자인 상황에서 크게 와닿지 않는다. 비추론 모델이라 그렇다하지만, 사용자 입장에선 추론이든 아니든 알 바는 아니다. 😅  특히, Plus 구독 모델에서 GPT-4.5의 usage limit은 50/week로 설령 글쓰기 등의 창의적 활동을 한다 해도, 조금만 하다 보면 금방 못쓰게 되는 수준이 아닌가 싶다.   o3-mini-high도 있는 상황에서 굳이 GPT-4.5를 건드릴 .. 2025. 3. 6.
o3-mini는 o1을 대체 가능할까? (o3-mini vs o1) 주의) o3-mini-high가 아니라, o3-mini에 대한 비교입니다! o3-mini-high는 당연히 o1보다 성능이 좋은데, 이용 한도가 50 per week기 때문에 이용에 불편함이 크다.하지만 o3-mini는 이용 한도가 150 per day로 사실상 일반 사용자라면 무제한 이용과 다를 바 없어 만약 o3-mini가 o1과 성능이 좋거나 혹은 대등하다면, DeepSeek-R1이 무료로 풀린 이 시점에서 ChatGPT 과금을 할만한 충분한 사유가 된다. 결론부터 말하자면, 성능은 대체가 가능하다!(이제 뒤로가기를 누르셔도 됩니다 😄)  https://www.youtube.com/watch?v=e-647TxSIz4 감사하게도 이 영상에서 o3-mini와 o1의 성능을 비교해주고 있는데, 어떠한 .. 2025. 2. 2.
[AI hand-on] 1. Single Neuron & ReLU 이 예제는 신경망의 기본 개념인 단일 뉴런과 ReLU 활성화 함수를 연습하는 문제이다. 학생들이 입력 값, 가중치, 편향을 사용해 뉴런의 출력을 계산하고, 그 출력에 ReLU 함수를 적용하는 과정을 이해할 수 있게 해준다.먼저 주어진 식에서 선형 계산을 한다. 각 입력 값과 가중치를 곱하고 그 결과를 모두 더한 후 편향을 더한다:입력 값(x): (1, 2, 3)가중치(w): (1, -1, 1)편향(b): -5w∗x+b=(1)∗(2)+(−1)∗(1)+(1)∗(3)+(−5)=−1w * x + b = (1)*(2) + (-1)*(1) + (1)*(3) + (-5) = -1w∗x+b=(1)∗(2)+(−1)∗(1)+(1)∗(3)+(−5)=−1선형 계산의 결과는 -1이다.그다음으로 ReLU 활성화 함수를 적용한다... 2024. 10. 14.
[AI] 간단한 선형 모델로 이해하는 가중치 감쇠(Weight Decay) 가중치 감쇠가중치 감소: 매번 업데이트할 때마다 가중치가 조금씩 줄어듦.복잡도 제어: 가중치가 작아지면 모델의 복잡도가 낮아져, 과도한 학습을 방지.일반화 성능 향상: 모델이 훈련 데이터에 과적합되지 않고, 새로운 데이터에도 잘 동작하게 됨.가중치 감쇠(Weight Decay)는 정규화(Regularization) 기법 중 하나이다. 정규화는 머신러닝 모델이 과적합(Overfitting) 되는 것을 방지한다. 간단한 선형 모델이 있다.  이 때 손실 함수를라고 한다.  가중치(Weight Decay)를 적용한 전체 손실 함수는이다.   🤔🤔근데 왜 𝜆/2에 w^2를 하는가?w^2를 미분하면 2w가 되는데, 이 때 1/2가 있으면 미분 값이 λw로 간단해지기 때문이다.  왜 굳이 가중치에 제곱을  하.. 2024. 9. 19.
반응형