R 분산 프로그래밍에서 빅 데이터 분석이 어렵고 힘든 이유가 어떻게 되나요?

흔히 말하는 R 분산 프로그래밍에서 빅 데이터 분석이 많이 어렵고 힘들다고 하시는데요.

어떻게보면 굉장히 중요한 부분이라고 생각되는데, 그 이유가 어떻게 되나요??

    1개의 답변이 있어요!

    • R에서 빅 데이터 분석이 힘든 이유는 크게 두 가지로 나눌 수 있습니다.

      첫 번째 이유는 아무리 코어가 많더라도 기본 빌드된 R에 서는 코어를 하나만 사용한다는 것입니다. 이 문제를 해결하기 위해 여러 패키지를 활용해 멀티코어를 충분히 활용 하는 방법이 있습니다. 그리고 따끈한 소식을 전하자면 R 2.14 버전부터는 바이트 컴파일러를 채용해 약 5배 정도 빠른 계산이 가능하고 몇몇 병렬처리가 가능한 함수들에 대해 암묵적으로 멀티코어를 활용할 수 있게끔 합니다. 정말 반가운 소식이 아닐 수 없습니다. 일단 멀티코어 문제는 슬슬 R언어 자체에서 해결되고 있다고 볼 수 있는데요.

      두 번째 문제는 첫 번째 문제보다 더 큰 구조적인 문제점을 안고 있습니다. 바로 메모리 한계 이슈입니다. 일단 R의 경우, 아니 데이터 분석의 업무 패턴상 데이터 전체를 메모리에 로딩해서 이런 저런 테스트나 변환을 하는 것이 일반적인 과정입니다. 게다가 분석을 하다보면 처음에는 1GB정도 되는 데이터가 수십GB가 되는 일이 비일비재 합니다. 그러다보면 쉽게 R의 허용 메모리 사용량을 초과하고 마는 것이지요.

      조금이라도 도움이 되셨길 바라겠습니다.