데이터 마이닝 라는게 어려운 문제를 풀어내어 비트코인을 생성한다고 하는데...
어떤 목적의 연산을 하는지 궁금하고
인터넷 상에는 해쉬에 포함된 임의의수를 찾기위해 한다고 하지만 도대체 왜 하는지 이해가 안가네요.
‘데이터 마이닝’은 보유한 데이터를 다양한 관점에서 분석하고 그 결과를 유용한 정보로 조합하는 일을 가리킨다.
방대한 데이터 속에 숨어 있던 패턴과 상관성을 통계적 수법들로 식별해 내 가치를 부여한다. 데이터 마이닝은 숫자가 아닌 데이터도 처리한다는 점에서 통계처리와 구분된다. 예를 들면 프로축구 선수들의 패스, 어시스트, 골 등 숫자로 표현되는 데이터 외에도 게임 중 행하는 동작이나 역할들까지 선수의 가치로 환산해서 연봉 책정의 기준으로 삼는다. 데이터 마이닝이 관심을 끄는 이유는 방대한 양의 데이터 속에 감춰진 정보나 지식을 잘 도출해 내 널리 활용할 수 있기 때문이다. 이렇게 얻은 지식은 위험 관리, 비즈니스 관리, 생산 관리, 시장 분석, 시스템 설계 및 연구개발 등에 활용할 수 있다.
‘데이터 마이닝’ 기법에는 일반적으로 연관(association), 회귀(regression) 및 분류(classification)라는 세 가지 유형이 있다.
연관 분석은 주어진 데이터 세트에서 자주 발생하는 속성 값들을 연결해 주는 연관 규칙을 발견하는 일이다. 예를 들면 고객이 구매한 쇼핑 카트 내의 개별 상품간의 상관관계를 식별하는 경우에 사용된다.
회귀 분석은 독립 변수 분석을 통해 종속 변수가 무엇인지 밝혀내는 일에 사용된다. 예를 들면 어떤 상품의 예상판매실적을 주요 고객들의 소득 수준과 상품의 판매가격과의 상관관계로부터 예측하는 방법이다.
분류란 개체들을 여러 등급으로 나누는 모델이다. 의사결정 트리, 수학공식 또는 if-then 규칙 등이 사용된다. ‘데이터 마이닝’의 품질은 입력된 데이터의 품질에 따른다. 데이터 분류가 잘못되거나 부정확한 데이터는 그릇된 예측을 낳는다. ‘데이터 마이닝’은 이전에 발생했던 데이터의 추세에 의존한다는 점에서 응용에 한계가 있다. 지나간 사건을 기반으로 하므로 미래에 벌어질 새로운 추세를 진단하기엔 역부족이다.

