디지털·가전제품

라마(Llama) 3 같은 오픈소스 LLM, 개인 PC에 로컬로 설치해서 돌리려면 VRAM 무조건 16GB 이상이어야 하나요?

요즘 AI에 관심이 생겨서 챗GPT 말고 제 개인 PC에 메타의 라마(Llama) 같은 오픈소스 LLM을 설치해서 오프라인으로 굴려보고 싶어졌습니다. 그런데 로컬로 AI 모델을 돌리려면 그래픽카드(GPU) VRAM이 깡패라고 하더라고요. 가벼운 모델 위주로 테스트만 해볼 건데, 굳이 비싼 16GB 이상 그래픽카드까지 맞춰야 원활하게 돌아갈까요? 컴잘알 분들 사양 추천 부탁드립니다.

2개의 답변이 있어요!

  • 오늘 ollama라는 플랫폼을 이용해서 로컬 ai 몇 개 설치한 후, open code에 붙여서 사용해봤어요.

    vram은 잘 모르겠는데요.

    M1 Macbook Air RAM 16GB, SSD 512GB 인데, 어느 정도 성능이 나오는 모델을 붙여봤는데, 답변이 느리더라고요.

    그래서 램을 더 키워야 하는게 아닌가 생각이 들어요.

    그리고 모델마다 성능이 일정한 것이 아니라, 1B, 4B, 7B, 13B, 70B 등 처럼 모델 뒤에 붙은 파라미터 수가 있어요.
    1B는 1억 개의 파라미터라는 뜻이에요.

    이게 높으면 일반적으로 더 좋은 성능을 가지는데, 저는 위 맥북 기준, 인기가 있는 모델들(gemma, qwen 등) 중 12B, 14B만 가더라도 답변이 느리더라고요.

    그리고 양자화라고 해서, 성능을 조금 더 낮춘 모델들도 존재해요.

    기본 모델이 잘 안되면 양자화된 모델들을 선택해야 하는 거 같아요.

    ollama를 사용하면 gui 상으로 채팅 치듯이 사용할 수 있어요. 터미널도 비슷하고요.

    open code에 붙여서 로컬에서 ai를 갖다가 쓸 수도 있어요.

    제대로 사용하시려면 여러 설정을 맞춰야 하는 거 같은데, 아직 공부를 안해서 못했고요.

    일단, 로컬 ai를 까신다면 1B, 4B 같은 성능이 낮은 것부터 까는 걸 추천해요.

    그 정도 성능이더라도 1 ~ 2GB는 해요. 답변이 만족스럽지는 않지만요.

    성능이 낮은 것부터 차례대로 깔아야 어느 정도 선까지 사용할 수 있는지 가늠이 되실 거에요.

    근데, 14B 정도 되면 답변이 어느 정도 만족스러워요. 근데 한 9GB 정도 할 거에요.

    근데 성능이 딸리면 답변 속도가 느려지죠.

    좋은 성능을 가진 모델은 token context가 커요.

    이전 정보들을 저장해두고, 답변의 질을 향상시키는 거죠.

    참고로, 로컬 ai 말고 api를 사용하신다면 토큰에 대한 개념을 잘 알고 계셔야 비용을 가늠할 수 있어요.

    입력 토큰보다 출력 토큰이 3 ~ 5배 더 비싸요.

    입력 토큰, 출력 토큰을 되도록 줄이면 좋죠.

    저도 아직 배우는 중이라 횡설수설 했는데,

    일반적인 분들은 웹만으로 충분할 거 같아요.

    저는 개발자 취준이라 프로젝트 폴더, 메모 폴더를

    분석하고, 수정하고, 읽는 등의 복잡한 작업을 해야 해서,

    api 혹은 구독 모델을 사용해야만 해서요.

    요약하면, 로컬 ai를 사용할 거면 gui 환경이 있는 ollama를 깔면 좋다.

    ollama를 이용하면 gui로 설치가 가능하다.

    성능은 낮은 것부터 조금씩 성능을 올려가며 설치하면 좋다.

    컴퓨터에 맞는 모델을 가늠할 수 있게 된다.

    채택 보상으로 88베리 받았어요.

    채택된 답변
  • 저도 지금 개인 AI 모델을 만들어가는 중인데

    진짜 깡패입니다.

    이게 LLM 가벼운거 돌린다고 쳐도 기본 운영체제에다가 AI 돌리게 되는거다 보니 사람들이 서버용을 찾는건데16GB 면 모자랍니다.

    제가 16GB 인데 윈도우라 그런지 모르겠지만

    윈도우11 기준으로 백그라운드 거의 다 끄고

    vscode 랑 AI 모델 한개 켜도 테스트 창이 멈추더라구요.

    결국은 유료서버 출혈인데 귀찮으니 여러 클라우드를 터널링해서 사용하는 방법 밖에는 없을거 같습니다.

    자원을 나눠서 사용하는 방법인데..

    그나마 좀 나아졌지만 아직은 버겁습니다.

    이미지 생성 모델이 아니여도 32 까지는 권장하며

    이미지 생성 모델시에는 글까랑 램 수준은..

    여기까지..