생활
LLM은 어떤 방식으로 동작하는 것인가요?
LLM 모델이 여럿 존재하는데 이들의 구조는 근본적으로 다들 다른가요?
데이터를 어떻게 학습 시켰느냐에 따라 구조가 바뀌는 것인가요?
2개의 답변이 있어요!
안녕하세요. 빛나라 하리 입니다.
LLM은 트랜스포머의 어텐션으로 문맥을 유지하며 다음 토큰을 확률적으로 예측해 문장을 생성하는 방식으로
동작을 합니다.
트랜스포머는 입력 전체를 동시에 보고 단어 간 관계의 중요도를 한 번에 계산해 병렬 처리와 긴 문맥 유지를 가능하게
합니다.
LLM은 방대한 텍스트 데이터를 학습해 언어를 이해하고 생성하는 AI 모델입니다. 주로 Transformer 구조를 기반으로 작동하며 입력 텍스트를 토큰화하고 다음 단어를 예측하는 방식으로 동작합니다. 대부분의 LLM은 Transformer 디코더-only 구조를 공유하지만 세부적으로는 MoE, GQA 등에서 차이가 있습니다.
예를 들어 GPT는 Dense 구조, Llama 4나 DeepSeek-V3는 MoE를 도입해 효율성을 높였습니다. 근본 아키텍처는 유사하나 최적화로 성능이 다릅니다.