AI 데이터, 생각보다 금방 쌓인다
AI를 조금이라도 만져본 사람이라면 알 거예요. 데이터셋이란 게 처음엔 몇 GB 정도인데, 이미지 데이터셋 한두 개 받고, 모델 체크포인트 몇 개 저장하다 보면 순식간에 수백 GB가 넘어갑니다. 솔직히 저도 처음에는 “1TB면 넉넉하겠지” 했다가 한 달 만에 고민에 빠졌거든요.
그래서 결국 내장 SSD 외에 추가 저장공간이 필요해지는데, 이때 보통 두 가지 선택지가 나옵니다. 외장 SSD를 사거나, NAS를 들이거나. 둘 다 장단점이 확실해서 “뭐가 무조건 좋다"고 말하기 어렵습니다. 자기 상황에 맞는 걸 골라야 하죠.
외장 SSD — 가볍고 빠르고 심플하다
외장 SSD의 가장 큰 매력은 단순함입니다. 사서 꽂으면 끝이에요. 설정이고 뭐고 없이 바로 쓸 수 있죠.
이럴 때 외장 SSD가 맞다
속도가 필요한 작업을 할 때가 첫 번째입니다. 요즘 나오는 NVMe 외장 SSD는 USB 3.2 Gen 2 기준으로 읽기 1,000MB/s 이상 나오는 것도 있어요. 모델 체크포인트를 불러올 때나 전처리된 데이터셋을 빠르게 읽어야 할 때 체감 차이가 큽니다. 특히 썬더볼트 포트가 있는 장비라면 2,000MB/s 이상의 속도도 기대할 수 있고요.
노트북으로 작업하는 사람한테도 외장 SSD가 편합니다. 카페에서든 연구실에서든 들고 다니면서 바로 꽂아 쓸 수 있으니까요. NAS는 네트워크가 필요하잖아요. 외부에서 접속할 수도 있긴 한데, 속도가 확 떨어집니다.
임시 백업용으로도 괜찮아요. 학습 중간에 체크포인트를 외장에 복사해두면, 본체에 문제가 생겨도 복구가 가능하니까요.
외장 SSD의 한계
문제는 용량 대비 비용이에요. 1TB 외장 SSD는 괜찮은데 4TB부터는 상당히 부담됩니다. 그리고 AI 데이터가 4TB 안에서 해결될 거라는 보장이 없거든요. 특히 이미지나 영상 기반 학습을 하면 데이터가 정말 빠르게 불어납니다.
또 하나, 외장 SSD는 본질적으로 단일 장치입니다. 그 하나가 고장 나면 데이터가 통째로 날아가요. 백업을 따로 안 해두면 꽤 위험한 구조이죠.
NAS — 대용량과 안정성의 끝판왕
NAS가 뭔지 잘 모르는 분들은 이전 글을 먼저 보시면 좋습니다. 간단히 말하면 네트워크에 연결된 개인 서버 같은 저장장치예요.
이럴 때 NAS가 맞다
데이터가 10TB 이상 될 예정이라면 NAS가 압도적입니다. HDD 여러 개를 묶어서 쓸 수 있어서 용량 확장이 쉽고, TB당 단가도 외장 SSD보다 훨씬 저렴해요. 개인적으로 느끼는 건, AI 학습을 진지하게 하려면 결국 NAS로 가게 된다는 거예요.
데이터 안정성이 중요할 때도 NAS가 유리합니다. RAID 구성을 하면 디스크 하나가 죽어도 데이터가 살아남거든요. 며칠 동안 학습시킨 데이터가 디스크 하나 때문에 날아가는 건 정말 최악이잖아요.
여러 대의 PC에서 같은 데이터에 접근해야 할 때도 NAS가 편합니다. 데스크톱에서 학습하다가 노트북에서 결과를 확인한다거나, 연구실 동료와 데이터를 공유해야 할 때 외장 SSD를 이리저리 옮기는 것보다 훨씬 깔끔하죠.
NAS의 한계
가장 큰 문제는 전송 속도입니다. 1Gbps 네트워크 기준으로 실질 전송 속도가 약 110MB/s 정도예요. 외장 NVMe SSD의 10분의 1 수준이죠. 10Gbps 네트워크를 구축하면 해결되긴 하는데, 10GbE NIC와 스위치를 사면 또 비용이 들어갑니다.
그리고 NAS는 초기 세팅이 귀찮습니다. 하드웨어 조립, 운영체제 설치, RAID 설정, 네트워크 설정… 처음 한 번은 반나절 이상 걸릴 수 있어요. 유지보수도 신경 써야 하고요.
전기도 계속 먹습니다. 24시간 켜두는 게 보통이라 한 달 전기세가 만만치 않을 수 있어요.
실제로 어떻게 쓰는 게 좋을까
개인적으로 추천하는 방식은 병행입니다. 둘 중 하나만 고르는 게 아니라 역할을 나누는 거죠.
작업 중인 데이터는 외장 SSD에 둡니다. 현재 학습에 사용하는 데이터셋과 최신 체크포인트를 외장 SSD에 넣어두면 속도를 최대한 끌어올 수 있어요. SSD 종류별 특성을 알면 용도에 맞는 제품을 고르기 쉽습니다.
완료된 데이터와 아카이브는 NAS로 옮깁니다. 학습이 끝난 모델, 과거 데이터셋, 실험 로그 같은 건 빠른 속도가 필요 없으니까 NAS에 저장해두는 게 합리적이에요. 필요할 때 다시 꺼내면 되니까요.
이렇게 하면 비용도 아끼고 속도도 챙기면서 데이터 안전도 확보할 수 있습니다.
클라우드는 어떨까?
“그냥 클라우드 쓰면 안 돼?“라고 생각할 수도 있는데, 대용량 AI 데이터에 클라우드 스토리지를 쓰면 월 비용이 꽤 나옵니다. 클라우드 스토리지 비교에서도 다뤘지만, TB 단위로 올라가면 로컬 저장이 경제적으로 훨씬 유리해요.
물론 클라우드 GPU를 쓰는 경우에는 학습 데이터도 클라우드에 올려야 하니까 상황이 다릅니다. 로컬 장비에서 학습하는 경우에 한해서 외장 SSD + NAS 조합이 가장 현실적이라는 이야기예요.
정리하면
| 외장 SSD | NAS | |
|---|---|---|
| 속도 | 빠름 (1,000MB/s+) | 느림 (110MB/s, 1GbE 기준) |
| 용량 확장 | 제한적 | 쉬움 |
| TB당 비용 | 높음 | 낮음 |
| 데이터 안전 | 단일 장치 의존 | RAID로 이중화 가능 |
| 다중 접근 | 물리적 이동 필요 | 네트워크로 공유 |
| 초기 세팅 | 즉시 사용 | 시간 소요 |
결국 정답은 “둘 다"입니다. 당장 예산이 부족하면 외장 SSD 하나로 시작하고, 데이터가 쌓이면 NAS를 추가하는 순서가 자연스러워요. AI를 시작한 지 얼마 안 됐다면 외장 SSD부터, 이미 데이터가 넘쳐나는 상황이라면 NAS부터 고려해보세요.