데이터 시각화 단계 - deiteo sigaghwa dangye

데이터 시각화 단계 - deiteo sigaghwa dangye

'벤 플라이'라는 분은 MIT 출신이고, 이 책의 저자이면서, Processing 이라는 오픈소스 미디어 시각화 도구를 만든 사람이기도 하다. 1장을 읽은 소감은 시각화라는 분야가 생소한 영역이지만, 즐겁게 공부할 수 있는 분야라고 느낄 수 있었다.

What is Questions?
정보 시각화는 데이터 집합의 견지에서 보려고 하지 않으며, 질문에서 시작한다. 왜 데이터가 수집되었는가? 어떤 부분이 흥미로운가? 그리고 어떤 스토리를 말할 수 있는가?

데이터를 이해하는 데에 있어 가장 중요한 기술들 가운데 하나는 좋은 질문들을 만드는 것이라고 한다.

 좋은 질문은 데이터에 포함된 흥미로움을 공유하고, 다른 이들에게 전달하려고 한다. 그리고 수학지향적이 아니라 호기심 지향적이다. (curiosity-oriented rather than math-oriented)

좋은 질문은 마법과 같아서 한번 듣게 되면 호기심과 흥미를 가지게 하는 질문이다

A Combination of Many Disciplines
통계학, 데이터 마이닝, 그래픽 디자인 그리고 정보 시각화 등의 수많은 학문의 결합을 통해야만 의미있는 솔루션을 만들어낼 수 있다.

  1. Acquire
    1. 데이터를 획득
  2. Parse
    1. 데이터를 구조화 하고 분류
  3. Filter
    1. 관심있는 데이터만 추출
  4. Mine
    1. 통계적인 방법 혹은 데이터마이닝 기법을 적용
  5. Represent
    1. 바 그래프, 리스트 혹은 트리 등의 기본적인 시각모델을 선택
  6. Refine
    1. 보다 명확하게, 매력적인 표현으로 개선
  7. Interact
    1. 데이터를 변경 혹은 보여지는 특질을 조작하는 방법을 추가

질문의 목적을 명확히 전달할 수 있을 때 까지 시각화를 프로세스에 따라 반복적인 과정(Iterative Process)이며, 시각적인 결과(Represent)를 얻을 수 있는 프로세스를 가지는 것이 중요하다. 프로그래밍에서 JUnit과 같은 도구가 Processing이 될 것 같다.

Principles
Each Project Has Unique Requirements
 : 하나의 시각화는 그 데이터 셋에 표현하는 유일한 특성들만을 표현해야만 한다. 일반적인 시각화 도구들을 이용해서 표현하는 것은 제대로 된 시각화가 어렵다. 그 데이터만을 위한 고유의 시각화를 만들어 내야만 한다.

Avoid the All-You-Can-Eat Buffet
 : 덜 세세한 설명이 더 많은 정보를 전달한다. 너무 많은 정보들은 청중을 혼란스럽게 하고, 정작 중요한 것을 전달하지 못한다. 가능한한 소중한 정보만으로 최소화 해야만 한다.

Know Your Audience
 : 청중이 누구인가? 시각화에 접근하는 이들의 최종 목적은 무엇인가? 그들은 무엇을 얻으려고 하는가? 모바일 디바이스와 데스크탑을 통한 이용자의 목적은 다르다.

데이터 시각화를 위한 단계

What is Questions?

정보 시각화는 질문에서 시작한다.

1. 왜 데이터가 수집되었는가?

2. 어떤 부분이 흥미로운가?

3. 어떤 스토리를 말할 수 있는가?

데이터를 이해하는데 있어 중요한 기술 가운데 하나는 '좋은 질문들을 만드는 것'

좋은 질문이란? : 한번 듣게 되면 호기심과 흥미를 가지게 하는 질문

1. 데이터에 포함된 흥미로움을 공유

2. 다른 이들에게 전달하려고 함.

3. 호기심 지향적(Curiosity-oriented)

시각화 절차와 기법

데이터 시각화 단계 - deiteo sigaghwa dangye
  1. 획득 : 데이터를 획득
  2. 해석 : 데이터를 구조화 하고 분류
  3. 정제 : 관심있는 데이터만 추출
  4. 마이닝 : 통계적인 방법 혹은 데이터 마이닝 기법 적용
  5. 표현 : 바 그래프, 리스트 혹은 트리 등의 기본적인 시각 모델 선택
  6. 정제 : 보다 명확하게, 매력적인 표현으로 개선
  7. 상호작용 : 데이터를 변경 혹은 보여지는 특징을 조작하는 방법 추가

질문의 목적을 명확히 전달할 수 있을 때 까지 시각화를 프로세스에 따라 반복적인 과정(Iterative Process)이며, 시각적인 결과(Represent)를 얻을 수 있는 프로세스를 가지는 것이 중요하다.

원칙


1. 각 프로젝트의 유일한 특성을 표현해라. (Each Project Has Unique Requirements)
 

하나의 시각화는 그 데이터 셋에 표현하는 유일한 특성들만을 표현해야만 한다.

그 데이터만을 위한 고유의 시각화를 만들어 내야만 한다.

2. 너무 많은 정보를 피해라 (Avoid the All-You-Can-Eat Buffet)
 

너무 많은 정보들은 청중을 혼란스럽게 하고, 정작 중요한 것을 전달하지 못한다. 

가능한한 소중한 정보만으로 최소화 해야만 한다.

3. 누구에게 전달할 것인가? (Know Your Audience)

청중이 누구인가? 

시각화에 접근하는 이들의 최종 목적은 무엇인가?

그들은 무엇을 얻으려고 하는가?

Ex) 모바일 디바이스와 데스크탑을 통한 이용자의 목적은 다르다.

데이터 시각화 단계 - deiteo sigaghwa dangye
데이터 시각화 단계 - deiteo sigaghwa dangye
데이터 시각화 단계 - deiteo sigaghwa dangye


출처

www.nngroup.com/articles/ten-usability-heuristics/

https://dm4ir.tistory.com/86 [data mining for information retrieval]