로컬 LLM이 뭔데?

ChatGPT나 Claude 같은 AI는 인터넷으로 서버에 접속해서 쓰는 방식입니다. 반면 로컬 LLM은 내 컴퓨터에 AI 모델을 직접 설치해서 실행하는 겁니다.

인터넷 없이도 되고, 내 데이터가 외부로 나가지 않아서 보안이 좋습니다.

왜 해봤나

회사에서 쓸 때 보안 이슈로 ChatGPT에 코드를 못 넣는 경우가 있었습니다. 그래서 로컬에서 돌릴 수 있는 방법을 찾다가 시작했습니다.

Ollama로 시작하기

여러 방법이 있는데, 제일 쉬운 건 Ollama입니다. 설치도 간단하고 명령어 몇 줄이면 바로 AI랑 대화할 수 있습니다.

설치 후 터미널에서 이렇게 치면 끝입니다:

ollama run llama3

이러면 Meta의 Llama 3 모델이 다운로드되고 바로 대화할 수 있습니다.

실제로 써본 느낌

좋았던 점

  • 오프라인에서도 작동 — 비행기에서도 AI를 쓸 수 있다는 게 신기했습니다
  • 응답이 빠름 — GPU가 괜찮으면 클라우드보다 빠를 때도 있음
  • 프라이버시 — 민감한 내용도 편하게 물어볼 수 있음
  • 무료 — 모델 자체는 오픈소스라 공짜

아쉬운 점

  • ChatGPT/Claude 대비 성능 차이 — 솔직히 복잡한 질문에서는 차이가 남
  • VRAM을 많이 먹음 — 7B 모델도 최소 8GB VRAM 필요
  • 큰 모델은 무거움 — 70B 모델은 일반 PC에서 돌리기 힘듦

어떤 모델을 써야 하나

제가 써본 것들 중 추천:

모델크기특징
Llama 3 8B작음일반 대화, 가벼운 작업에 좋음
Mistral 7B작음코딩 관련 질문에 괜찮음
Gemma 2 9B중간구글이 만든 모델, 균형 잡힘
Qwen 2.5 14B중간한국어 성능이 비교적 좋음

한국어를 주로 쓴다면 Qwen 시리즈가 그나마 낫습니다. 영어는 어떤 모델이든 꽤 잘 합니다.

GPU별 돌릴 수 있는 모델

  • RTX 3060 12GB — 7~8B 모델 쾌적
  • RTX 4070 12GB — 14B 모델까지 가능
  • RTX 4090 24GB — 30B 모델도 돌아감

VRAM이 핵심이라, 본인 GPU의 VRAM이 얼마인지 먼저 확인해보세요.

마치며

로컬 LLM은 만능은 아니지만, 특정 상황에서는 클라우드 AI보다 나은 선택입니다. 특히 보안이 중요하거나 인터넷이 불안정한 환경에서 유용합니다.

한 번 설치해놓으면 이것저것 실험해보는 재미가 있으니, 관심 있으시면 Ollama부터 시작해보세요.