오늘 ollama라는 플랫폼을 이용해서 로컬 ai 몇 개 설치한 후, open code에 붙여서 사용해봤어요.
vram은 잘 모르겠는데요.
M1 Macbook Air RAM 16GB, SSD 512GB 인데, 어느 정도 성능이 나오는 모델을 붙여봤는데, 답변이 느리더라고요.
그래서 램을 더 키워야 하는게 아닌가 생각이 들어요.
그리고 모델마다 성능이 일정한 것이 아니라, 1B, 4B, 7B, 13B, 70B 등 처럼 모델 뒤에 붙은 파라미터 수가 있어요.
1B는 1억 개의 파라미터라는 뜻이에요.
이게 높으면 일반적으로 더 좋은 성능을 가지는데, 저는 위 맥북 기준, 인기가 있는 모델들(gemma, qwen 등) 중 12B, 14B만 가더라도 답변이 느리더라고요.
그리고 양자화라고 해서, 성능을 조금 더 낮춘 모델들도 존재해요.
기본 모델이 잘 안되면 양자화된 모델들을 선택해야 하는 거 같아요.
ollama를 사용하면 gui 상으로 채팅 치듯이 사용할 수 있어요. 터미널도 비슷하고요.
open code에 붙여서 로컬에서 ai를 갖다가 쓸 수도 있어요.
제대로 사용하시려면 여러 설정을 맞춰야 하는 거 같은데, 아직 공부를 안해서 못했고요.
일단, 로컬 ai를 까신다면 1B, 4B 같은 성능이 낮은 것부터 까는 걸 추천해요.
그 정도 성능이더라도 1 ~ 2GB는 해요. 답변이 만족스럽지는 않지만요.
성능이 낮은 것부터 차례대로 깔아야 어느 정도 선까지 사용할 수 있는지 가늠이 되실 거에요.
근데, 14B 정도 되면 답변이 어느 정도 만족스러워요. 근데 한 9GB 정도 할 거에요.
근데 성능이 딸리면 답변 속도가 느려지죠.
좋은 성능을 가진 모델은 token context가 커요.
이전 정보들을 저장해두고, 답변의 질을 향상시키는 거죠.
참고로, 로컬 ai 말고 api를 사용하신다면 토큰에 대한 개념을 잘 알고 계셔야 비용을 가늠할 수 있어요.
입력 토큰보다 출력 토큰이 3 ~ 5배 더 비싸요.
입력 토큰, 출력 토큰을 되도록 줄이면 좋죠.
저도 아직 배우는 중이라 횡설수설 했는데,
일반적인 분들은 웹만으로 충분할 거 같아요.
저는 개발자 취준이라 프로젝트 폴더, 메모 폴더를
분석하고, 수정하고, 읽는 등의 복잡한 작업을 해야 해서,
api 혹은 구독 모델을 사용해야만 해서요.
요약하면, 로컬 ai를 사용할 거면 gui 환경이 있는 ollama를 깔면 좋다.
ollama를 이용하면 gui로 설치가 가능하다.
성능은 낮은 것부터 조금씩 성능을 올려가며 설치하면 좋다.
컴퓨터에 맞는 모델을 가늠할 수 있게 된다.