로컬 LLM이 뭔데?
ChatGPT나 Claude 같은 AI는 인터넷으로 서버에 접속해서 쓰는 방식입니다. 반면 로컬 LLM은 내 컴퓨터에 AI 모델을 직접 설치해서 실행하는 겁니다.
인터넷 없이도 되고, 내 데이터가 외부로 나가지 않아서 보안이 좋습니다.
왜 해봤나
회사에서 쓸 때 보안 이슈로 ChatGPT에 코드를 못 넣는 경우가 있었습니다. 그래서 로컬에서 돌릴 수 있는 방법을 찾다가 시작했습니다.
Ollama로 시작하기
여러 방법이 있는데, 제일 쉬운 건 Ollama입니다. 설치도 간단하고 명령어 몇 줄이면 바로 AI랑 대화할 수 있습니다.
설치 후 터미널에서 이렇게 치면 끝입니다:
ollama run llama3
이러면 Meta의 Llama 3 모델이 다운로드되고 바로 대화할 수 있습니다.
실제로 써본 느낌
좋았던 점
- 오프라인에서도 작동 — 비행기에서도 AI를 쓸 수 있다는 게 신기했습니다
- 응답이 빠름 — GPU가 괜찮으면 클라우드보다 빠를 때도 있음
- 프라이버시 — 민감한 내용도 편하게 물어볼 수 있음
- 무료 — 모델 자체는 오픈소스라 공짜
아쉬운 점
- ChatGPT/Claude 대비 성능 차이 — 솔직히 복잡한 질문에서는 차이가 남
- VRAM을 많이 먹음 — 7B 모델도 최소 8GB VRAM 필요
- 큰 모델은 무거움 — 70B 모델은 일반 PC에서 돌리기 힘듦
어떤 모델을 써야 하나
제가 써본 것들 중 추천:
| 모델 | 크기 | 특징 |
|---|---|---|
| Llama 3 8B | 작음 | 일반 대화, 가벼운 작업에 좋음 |
| Mistral 7B | 작음 | 코딩 관련 질문에 괜찮음 |
| Gemma 2 9B | 중간 | 구글이 만든 모델, 균형 잡힘 |
| Qwen 2.5 14B | 중간 | 한국어 성능이 비교적 좋음 |
한국어를 주로 쓴다면 Qwen 시리즈가 그나마 낫습니다. 영어는 어떤 모델이든 꽤 잘 합니다.
GPU별 돌릴 수 있는 모델
- RTX 3060 12GB — 7~8B 모델 쾌적
- RTX 4070 12GB — 14B 모델까지 가능
- RTX 4090 24GB — 30B 모델도 돌아감
VRAM이 핵심이라, 본인 GPU의 VRAM이 얼마인지 먼저 확인해보세요.
마치며
로컬 LLM은 만능은 아니지만, 특정 상황에서는 클라우드 AI보다 나은 선택입니다. 특히 보안이 중요하거나 인터넷이 불안정한 환경에서 유용합니다.
한 번 설치해놓으면 이것저것 실험해보는 재미가 있으니, 관심 있으시면 Ollama부터 시작해보세요.