Q. 정보의 데이터 압축의 원리가 궁금합니다.
안녕하세요. 원형석 과학전문가입니다.RLE(Run Lenght Encoding)방식aaaaabbbbccccdddeeee -> a5b4c4d3e4데이터에 한 문자가 'aaaaa'로 연속되어 있다면 그것을 'aaaaa -> a5'로 간단히 나타낼 수가 있다. 위의 예의 20문자는 'a5b4c4d3e4'로 10 문자로 줄일 수가 있을 것이다. 장점: 압축과 압축을 푸는 속도가 매우 빠르고 프로그래밍 하기가 쉬우며 프로그램의 크기 또한 아주 작게 만들 수 있다는 점이다. 특히 같은 문자가 계속 반복되는 자료를 압축 할 때 높은 압축율을 자랑한다. 그러나 일반적인 경우에는 압축율이 낮다. 호프만 코딩(Huffman coding) 모든 문자가 동일한 빈도로 전송되지 않는 성질을 이용함자주 사용되는 문자에 대해서는 적은 수의 비트를 사용하는 것JPEG, MPEG에서는 RLE와 호프만 코딩 방식을 사용하고 있다.호프만의 압축법은 다음의 네 가지를 거쳐서 이루어진다.1) 압축할 파일을 읽어 각 문자들의 출현 빈도수를 구한다.100 바이트의 크기를 갖고 있으며, 6개의 문자만으로 이루어진 파일이 있다고 가정하자.빈도수 : C(30), A(10), D(5), F(10), B(20), E(25)2) 이들 가운데서 가장 빈도수가 적은 문자들끼리 연결시켜 이진 트리를 만든다.3) 이진 트리로부터 각 문자들을 대표하는 값을 얻는다.