로컬 모델인 헤르메스(Hermes)에 애매하게 질문하면 왜 꼭 파이썬(Python) 코드를 짜줄까요?

맥 미니에서 오픈클로(OpenClaw)나 헤르메스 같은 로컬 LLM을 띄워놓고 자동화 스크립트를 짜달라고 할 때, 제가 굳이 언어를 지정하지 않아도 십중팔구는 파이썬으로 코드를 짜주잖아요. 세상에 수많은 프로그래밍 언어가 있는데, AI 모델들이 학습한 데이터의 가중치가 파이썬에 압도적으로 쏠려 있어서 뇌의 디폴트값이 파이썬으로 고정되어 버린 건가요?

3개의 답변이 있어요!

  • 안녕하세요. 김재훈 전문가입니다.

    LLM들이 학습한 공개 코드 튜토리얼 기술문서 깃허브 저장소에는 파이썬 비중이 매우 크고 AI 데이터 분석 자동화 분야에서도 파이썬이 사실상 표준 언어라서 모델이 자동화 스크립트 작성이라는 요청을 받으면 가정 성공 확률이 높은 답으로 파이썬을 우선 선택하는 경향이 있습니다 다만 단순히 데이터 비중 때문만은 아니고 파이썬이 문법이 간결하고 운영체제 제어 파일 처리 네트워크 작업 라이브러리가 풍부해 다양한 환경에서 범용적으로 사용할 수 있기 때문에 모델이 최적의 기본값으로 판단하는 경우가 많습니다

  • 안녕하세요. 이승호 전문가입니다.

    그 질문에 대한 답은 생각하신 내용이 정확히 맞습니다. 로컬 LLM이 언어를 지정하지 않았을 때 파이썬으로 코드를 짜주는 가장 큰 이유는 학습 데이터의 양과 가중치가 파이썬에 압도적으로 쏠려 있기 때문입니다.

    오픈소스 모델들의 기반이 되는 인터넷상의 수많은 소스코드 데이터 중에서 파이썬은 가장 큰 비중을 차지합니다. 특히 AI 모델을 학습시킬 때 사용하는 깃허브나 코드 저장소에서 파이썬은 기계학습, 데이터 분석, 그리고 질문자님이 언급하신 자동화 스크립트 분야에서 표준처럼 사용되는 언어입니다. 모델 입장에서는 어떤 언어로 짜야 할지 모호한 상황이 주어지면, 통계적으로 가장 성공 확률이 높고 데이터가 많았던 파이썬을 선택하는 것이 일종의 기본값으로 굳어진 것입니다.

    여기에 추가적인 이유를 더하자면 자동화라는 단어 자체의 특성도 있습니다. 컴퓨터공학 데이터에서 시스템 자동화나 스크립트 작성이라는 맥락은 파이썬과 매우 강력하게 연결되어 있습니다. 모델이 자동화 스크립트라는 단어를 인식하는 순간, 그와 관련된 연관 단어나 코드 패턴으로 파이썬이 가장 먼저 연상되도록 가중치가 활성화됩니다.

    또한 파이썬은 문법이 인간의 자연어와 유사하고 간결해서 모델이 코드를 생성할 때 토큰을 효율적으로 사용할 수 있다는 기술적인 이점도 있습니다. 결국 AI 모델이 가진 지식의 지도에서 자동화와 스크립트라는 영역의 중심에 파이썬이 자리 잡고 있기 때문에 발생하는 자연스러운 현상입니다.

  • 안녕하세요. 최정훈 전문가입니다.

    작성자님께서 말씀하신 대로 AI 모델들이 학습한 데이터 중에서 파이썬의 비중이 워낙 압도적입니다. 그래서 디폴트 값으로 출력되는 게 맞아요. 그리고 자동화 스크립트라는 단어 자체가 파이썬과 워낙 궁합이 좋아요. 그래서 모델 내부에서 가중치가 그쪽으로 쏠리는 거죠. 코드가 간결해서 프롬프트 지시를 코드로 변환하실 때 오류가 적다는 것도 AI가 파이썬을 편애하는 이유 중에 하나죠. 결국에는 모델 입장에서는 성공 확률이 높은 언어를 골라서 서비스합니다. 혹시 다른 언어가 필요하시다면 프롬프트에 바시 스크립트로 짜줘 같은 원하시는 언어를 꼭 집어주시는 게 편하실 겁니다.