최근 D.N.A(Data. Network AI)의 한 축으로써 빅데이터를 활용한 사업화가 대세다. 너나 할 것없이 공공기관부터 데이터를 공개했고, 각종 데이터 플랫폼과 대회들이 우후죽순처럼 늘어났다. 이제 데이터는 '미래의 원유'가 됐다. 빅데이터를 통해 인공지능과 네트워크를 운영할 수 있기 때문이다.
그런데 생각해보면 우리 주변에는 항상 데이터가 존재해 왔다. 데이터가 없던 적은 없었다. 텍스트, 이미지, 음성, 기억 등 보존된 데이터의 형태가 바뀌어왔을 뿐이다. 실제 'FlowingData'와 같은 사이트를 본다면, 데이터 시각화 분야도 갑자기 하늘에서 뚝 떨어진 게 아니다.
FlowingData는 2008년부터 꾸준히 데이터 시각화와 관련된 비즈니스를 운영해왔다. 12년간 어떠한 일이 발생했는지 알 수는 없지만 일단 결과만 본다면, 데이터 시각화 비즈니스 모델의 핵심은 '맴버십'이다. 유료 맴버십을 구입한 회원은 '교육', '제작', '자료열람', '상담', '정보구독' 5가지 서비스를 제공받는다.
FlowingData와 같은 데이터 시각화 사이트를 운영하기 위해서는 어떠한 기반이 있어야할까?
아마도 가장 중요한 것은 '데이터'일 것이다. 그런데 FlowingData는 어떻게 데이터를 확보할 수 있을까? 설립자로 보이는 Nathan Yah의 2008년 글을 살펴보자.
Nathan Yah의 최초 프로젝트는 2008년 6월 17일, '사람들의 꿈과 목표'와 관련된 데이터를 둥근 거품으로 표현한 자료다. '운이 좋다'라고 표현했기 때문에 아마도 43Things라는 단체에서 회원들의 데이터를 무료로 받은 것 같다.(그의 부인은 의사였기 때문에 의료데이터를 제공받는 일도 쉬웠을 것이다) 이후 Nathan Yah은 자신이 직접 데이터를 확보하는 방식에서 오픈API를 활용하는 방향으로 나아갔다.
날짜 (년) |
주제 |
데이터 출처 |
2008 |
문화센터, 월마트 성장, 트위터 성장, 휘발유 가격, 웹 트래픽 맵, 미국 빈곤율, |
직접 조사, 국가기관, 지인부탁, 공동조사 |
2009 |
트위터 API, 부동산 홍보물, TV크기, 미국인 수명 소비자 지출, 음반구입 소비자 심리, 크리스마스 소비 |
직접 조사, 의료기관 의뢰 ,통계청, 음반협회 |
2010 |
나이대 노화율, 개인생활 시간, 하키 관심도, 육류 소비율, 삶의 목표, 월마트 성장지도, 유아기 수면패턴, 첫 데이트 시간표 분포도, 영화 속편 수익률, 미국내 실업률, 식품 리콜율, 미국내 총기 살인률 |
사생활, 통계청, 요식업계, 설문조사, 방송사, 의료기관, FDA, 연방수사국 |
2011 |
발렌타인 데이 커플 성사률, 코스트코 성장률, 휘발유 가격 변화율, 은퇴 후 관계 그래프, 2011년 식품물가 상승률, 항공기 운항그래프, 결혼 및 이혼비율, UFO목격자 위치 그래프, 기업 인지도 그래프, 미국인의 일별 시간 그래프, 기대수명 추정치 |
페이스북 API, 통계청, 국립 UFO센터, 트위터, 미국시간사용 설문조사 |
2012 |
치명적 충돌사고별 차량조사, 영화 스트리밍 플랫폼, 성형수술 만족도 그래프, 성별 임금격차, 국가별 기대수명, 에어컨 수리 만족도 |
미국 도로교통 안전국, 기자협회 조사자료 인용, 의료기관, 통계청, 워싱턴대 보건연구센터 |
2013 |
소개팅별 만족도 조사, 식료품 가게 맵, 미국인 이름별 스토리 조사, 피자체인점 거리맵 |
민간기간(잡지),AggData, 힐러리 파커 |
2014 |
영화 대사별 인용구 그래프, 자전거 이동맵, 세계 지진 진앙지 맵, 바(술집) 거리맵, 햄버거 거리맵, 산업별 연봉 그래프, 카지노 맵, 사촌 히트맵, 미국인 직업별 통근거리맵, 젊은부부 지리맵, 미국 지역별 운전률 |
미국영화협회, 미국지질조사국, 통계청, 구글 지도맵API, 주변 지인,미국 인구조사국 |
2015 |
미국 주별 세금 소득률, 미국 주별 인종변화율, 샌드위치 가게 지도맵, 미국 소득변화율, 미국인 직업 생활 통계치, 결혼연령 |
통계청, 미국 공동체 조사 미국 인구조사국, |
flowingData의 자료들은 2016년부터 날짜가 공개되지 않고 있다. 차트의 퀄러티가 상당히 올라간 시점이 2016년 부터이며, 사용자에 따라 데이터를 예측할 수 있는 모델을 제공하고 있다.(유료 회원의 경우) 또, 개인적 주제는 점차 사라지고, 미국인 전체를 기준으로 사회적 통계모델을 시각화하는 방향으로 전환한 것으로 보인다.(ex.미 대선, 실업률, 비만율, 소득 및 수익, 지역별 기타 모델)
2020년 현재 기준으로 보면, 크게 '직업(소득 및 수익)', '건강', '연애 및 결혼', '산업&기업별 성장률', '기타 일상생활' 5개 범주에서 데이터 시각화를 진행하고 있다는 점을 알 수 있다. 하지만 flowingdata처럼 빅데이터를 시각화하기 위해서는 다음 3가지 요건이 충족되어야 한다.
1] 데이터 공급(영업)
2] 데이터 분석(공학)
3] 데이터 활용(인문·사회)
AI 혹은 메카트로닉스 분야라면 '3]데이터 활용'주체가 인문·사회 분야에서 공학으로 변경될 수 있지만, 비즈니스 규모가 너무 커진다는 단점이 발생한다.(웹 비즈니스 범위를 벗어남) 결론적으로 데이터 시각화를 통한 비즈니스 모델은 반드시 '예측'결과가 동반되어야 하며, 예측 결과를 도출할 수 없다면 사용자의 상황을 추정할 수 있는 기능이라도 붙여야한다.
확실한 것은 데이터 시각화로 수익모델을 만들기가 생각만큼 녹록지 않다는 점이다. 12년간 데이터 시각화를 운영했던 flowingData역시 결국 '유료 강의'가 메인 비즈니스 모델이라는 점을 떠올린다면 감을 잡을 수 있다.
데이터 시각화를 비즈니스로 연결하기 위해서는 '데이터 수집', '데이터 분석', '데이터 해석' 3가지 영역이 제대로 돌아가야 한다. 즉, '공학-디자인-사회과학' 3가지 분야의 융합이 필요하고, 비즈니스 모델의 성패는 결국 사회과학 분야의 해석에 달려 있다. 왜냐하면 객관적 데이터 분석으로 쉽게 알 수 있는 '인구통계', '지리', '역사문화', '교육', '국방'과 같은 보수적인 영역은 쉽게 변하지 않기 때문이다.
내년에도 남녀 성비가 지금과 비슷할 것임을 알 수 있고, 어느 지역의 아파트(지형변화)가 1년 만에 사라지지 않을 것이며, 한국의 각종 문화는 몇년 후에도 그대로 이어질 것이라 누구나 예측할 수 있다. 그리고 누구나 예측할 수 있는 데이터는 데이터로써 가치가 없다. 정말 가치있는 데이터는 '쉽게 예측할 수 없는' 변동성 높은 분야이며, 이런 분야는 대체적으로 '인간 심리'와 관련되어 있다.
결국 개발자 입장에서, 데이터 시각화를 비즈니스 모델로 연결시킬 수 있는 가장 좋은 방법은 '플랫폼'이 아닐까한다. '데이터 수집-데이터 시각화'이후의 단계는 유저에게 맡겨 버리고, 이후 과정은 유저들이 예측한 결과 보고서를 주고받는 식이 된다면 '사회과학 분야'에 투자하지 않아도 되기 때문이다. 단, 수익이 비용을 넘겨야 할 기간을 버티기가 쉽지 않을 것이다.
'코드 스터디' 카테고리의 다른 글
css 라이브러리 repeat기능 사용 (0) | 2020.07.21 |
---|---|
리액트 유저를 위한 Next.js 튜토리얼 사이트 (0) | 2020.07.12 |
no 프레임워크 (0) | 2020.07.02 |
반응형 html,「HTMX(AJAX + HTML)」 (0) | 2020.06.04 |
자바스크립트 배열 사용 4가지 방법 (0) | 2020.04.04 |
댓글