#title 데이터 분석

데이터 분석이란, 어떤 데이터를 여러 요소로 쪼개어 보고, 요소들끼리의 관계를 파악하여, 데이터가 어떻게 만들어졌는지 종합하여 이해하는 행위를 말합니다.
이해는 데이터 분석의 목적이죠.

예를 들어, 평소에는 매출액이 50만 원인데 오늘은 어찌된 일인지 매출액이 100만 원이나 되었습니다. 
매우 __희귀한 일__입니다.

왜 매출액이 100만 원이나 발생했는지 상품별로 쪼개어 봤더니 단팥빵의 매출이 크게 늘었던 것입니다. 
담당자에게 물어보니 어떤 동호회에서 야휴회 간다고 대량 주문을 했던 것입니다. 

이제 왜 매출액이 100만 원이라는 숫자가 되었는지 이해하게 되었습니다. 
데이터 분석을 통해서 말이죠.

그럼 무엇을 어느 정도 상세하게 쪼개어 봐야 할까요?
많은 경우 내가 이해하려는 데이터가 어떤 변수들에 영향을 받았는지 알기는 쉽지 않습니다. 
또한 얼마나 깊게 쪼개어봐야 하는지도 애매모호하죠.
이런 경우 다음과 같은 방법으로 데이터를 탐색합니다. 


일단 비지니스에 대한 이해를 해야 겠죠. 나름대로의 비지니스 모델을 만들어야 합니다.  
변수들을 나열하고, 분산을 봅니다. 
분산이 크지 않은 변수들은 분석에서 제외합니다. 
그리고 분산이 큰 변수들을 분산이 작아질때까지 쪼개어 보면 됩니다. 

분석하려는 데이터 셋의 분산이 크다면 그 데이터 셋은 정보를 많이 가지고 있는 것입니다. (= 엔트로피가 높다 = 복잡하다)
즉, 분석을 해 볼만하다는 이야기죠.
분산이 크지 않다면 데이터들이 비슷비슷 고만고만하단 얘기입니다. 
즉, 예측 가능하단 얘기 입니다. 

정규분포를 가정했을 때 평균=100, 표준편차=1이라면 거의 대부분의 데이터는 100에 가까운 수치란 얘기입니다. 
이런 경우 분석할 필요가 없죠. 왜냐하면 거의 비슷하게 예측 가능하기 때문입니다. 예측 가능하단 소리는 이해했다는 말로 해석할 수 있지요.
하지만, 표준편차가=1000이라면 거의 대부분의 데이터는 -1900 ~ 2000 사이에 넓게 분포되어 있어 예측하기 어렵습니다. 
예측하기 어렵단 얘기는 이해할 수 없단 얘기이고, 이해 할 수 없다면 분석해야죠.

----
CategoryEureka