[데이터분석] 탐색적 데이터 분석 vs 확증적 데이터 분석
자료분석의 방법
탐색적 데이터 분석(EDA)
- 쌓여있는 데이터를 기반으로 가설을 세워 데이터를 분석하는 방법
- 데이터의 구조와 특징을 파악하며 여기서 얻은 정보를 바탕으로 통계모형을 만드는 단계
- 빅데이터 분석에 사용됩니다
확증적 데이터 분석(CDA)
- 목적을 가지고 데이터를 확보하여 분석하는 방법
- 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등 통계적 추론을 하는 단계
- 가설검정, 보통은 설문조사, 논문에 대한 내용을 입증하는데 많이 사용됩니다.
자료분석의 사례
한 영국의 연구결과
구름 낀 날보다 화창한 날에 여성을 유혹하기 더 쉽다는 이색 연구결과가 나왔다.
1일 영국 데일리메일에 따르면 최근 학술지 ‘사회적 영향(Social Influence)’에는 여성이 흐린 날보다 맑은 날 남성의 ‘유혹’에 더 쉽게 마음을 여는 것으로 나타났다는 논문을 실었다.
연구를 진행한 프랑스 남(南)브르타뉴대 연구팀은 지난해 5월~6월 프랑스의 해안도시 2곳에서 젊고 매력적인 남성을 뽑아 무작위로 고른 여성 500명에게 접근시켰다.
연구팀은 기온(18℃~22℃)이 비슷한 조건에서 해가 쨍쨍한 날과 흐린 날(비는 오지 않는)로 나누어 실험을 진행했다. 남성은 또래의 여성에게 접근해 “저는 앙투안입니다. 당신이 너무 예뻐서요. 이제 저는 일을 하러 가야 하는데, 혹시 전화번호를 알려 주실 수 있나요? 제가 전화 드릴게요. 함께 한잔해요”라고 말한 뒤 여성을 응시하면 10초간 반응을 기다렸다.
실험 결과, 화창한 날엔 20%의 여성이 전화번호를 알려준 반면 흐린 날에는 13.9%의 여성만이 전화번호를 알려줬다.
연구팀을 이끈 니콜라 게겐 교수는 “보통 사람들은 햇살이 밝게 비치는 날 더 기분이 좋은 경향이 있다”며 “이 때문에 남성은 화창한 날 여성을 더 쉽게 유혹할 수 있다”고 설명했다.
위 연구를 바탕으로 EDA와 CDA를 구분
EDA
여성을 유혹한 남성들의 자료를 분석한 결과 일부 남성들은 다른 남성들에 비해 화창한날 유혹을 더쉽게 한다는 것이 발견되었다
여성을 유혹할때 날씨가 관계있다는 추측이 생겼다
CDA
추측이 맞는지 이를 확인하기 위하여 무작위 500명의 여성에게 날씨를 다르게 하여 유혹테스트를 진행 및 확인하였다
'프로그래밍 > 빅데이터' 카테고리의 다른 글
[추천알고리즘] 협업필터링,Collaborative Filtering(CF) (315) | 2015.09.20 |
---|---|
[잡담] 데이터 사이언티스트(data scientist) (312) | 2015.09.20 |
Cloud & 빅데이터 (4) | 2015.06.21 |
자연어처리와 오피니언마이닝 (6) | 2015.04.12 |