컴퓨터에서 한글은
유니코드
(Unicode)라는 문자 인코딩 방식을 통해 표현됩니다. 유니코드에서는 한글을 하나의 문자로 인식하고, 각 문자를 특정 코드 값으로 저장합니다. 한글을 2바이트(16비트)로 표현하는 원리는 다음과 같습니다:
1.
한글의 유니코드 범위:
현대 한글은
U+AC00
부터
U+D7A3
까지 총 11,172개의 코드 포인트를 가지고 있습니다.
U+AC00
는 “가”를 나타내며, 각 글자가 초성, 중성, 종성의 조합으로 순서대로 배치됩니다.
2.
조합의 원리:
한글은 초성(19개), 중성(21개), 종성(28개)으로 구성됩니다.
한글 유니코드는 초성, 중성, 종성을 조합해 하나의 글자를 생성합니다.
예: “가” = 초성(ㄱ) + 중성(ㅏ) + 종성(없음)
이를 수식으로 나타내면:
유니코드 =
0xAC00
+ (초성 ×
588
) + (중성 ×
28
) + 종성
여기서 588은 중성(21) × 종성(28)의 조합 수입니다.
3.
2바이트로 저장
:
유니코드 시스템에서는 한글 하나를 **2바이트(16비트)**로 저장합니다.
예를 들어, “가”는 유니코드
U+AC00
이고, 이를 이진수로 표현하면
1010 1100 0000 0000
입니다.
4.
확장:
UTF-8 같은 인코딩에서는 한글을 3바이트로 표현할 수도 있지만, 기본적으로 유니코드에서는 2바이트로 처리됩니다.