기타

빅데이터

멍토 2019. 11. 24.

이미지 출처 : http://www.kidd.co.kr/news/199812

 

Big Data : 엄청난 양의 데이터 덩어리, 많은 양의 기록

많은 데이터로부터 가치를 뽑아내고 결과를 분석하는 기술

 

데이터가 많다는 뜻은 그 만큼 많은 정보가 있다는 뜻이고, 

이를 이용하여 유용한 의미를 뽑아낼 수 있다는 것이다.

 

빅데이터는 어느정도 크기부터 빅데이터라 할까?

글로벌 컨설팅 업체 매킨지가 내린 정의에 의한다면

빅데이터는 적어도 수십 TB에서 수십 PB의  데이터가 뭉쳐진 형태를 의미한다. (문자만을 따졌을때)

 

데이터는 여러 종류로 나눌 수 있다.

로그(Log) 데이터 : 장비가동이나, 임직원, 방문객등이 움직이거나 웹,앱상에서 특정 행동을 하면서 쌓이는 기록

정형 데이터 : 결제, 환불, 사용, 취소 같은 행동을 하면서 쌓이는 기록

비정형 데이터 : 사진, 영상 등을 뜻함

 

빅데이터의 특징(3V와 새로운 V)

1. 데이터의 양(Volume) : 수많은 데이터를 의미한다.

 

2. 속도(Velocity) : 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성이다.

융복합 환경에서 데이터는 매우빠른 속도로 생산되므로

이를 실시간으로 저장, 유통, 수집, 분석 처리가 가능한 성능을 의미한다.

 

3. 다양성(Varity) : 다양한 종류의 데이터를 의미하며 정형화의 종류에 따라

정형, 반정형,  비정형 데이터로 분류할 수 있다.

 

4. 정확성(Veracity) : 방대한 데이터의 양을 분석하여 일정한 패턴을 추출할 수 있다.

하지만 정보의 양이 많아지는 만큼 데이터의 신뢰성이 떨어지기 쉽고,

이를 분석하는데 있어 수집한 데이터가 정확한것인지, 분석할 가치가 있는지를 확인해야 한다하여

정확성이 제시되었다.

 

5. 가변성(Variability) : 소셜미디어 같은곳에 올린글이 자신의 의도와 달리 다른 사람에게 오해를 불러일으킬 수 있다.

이처럼 데이터가 맥락에 따라 의미가 달라진다하여 가변성이 제시되었다. 

 

6. 시각화(Visualization) : 정형 및 비정형 데이터를 수집하여 복잡한 분석을 실행한 후

용도에 맞게 정보를 가공하는 과정을 거친다.

이때 중요한 것은 정보의 사용대상자의 이해정도이다.

이로 인하여 시각화가 제시되었다.

 

 

데이터는 어떻게 모으고 분석할 수 있을까?

 

예전의 빅데이터라는 개념이 없던 시절에는 데이터가 마구잡이로 퍼져있는 수준이었다.

이것을 한데 모으는 작업을 데이터 수집(Data Mining)이라고 한다.

아날로그 데이터의 경우 디지털로 변환하여 활용한다.

이미지의 경우 주요 정보를 정리하여 보관한다.

 

이렇게 모은 정보를 체계적으로 분류하여 결론을 도출하는 일련의 과정을 거치게 된다.(Data Analytics)

이러한 일련의 과정을 데이터 분석이라고 한다.

 

빅데이터와 인공지능(AI)는 빅데이터 기술에 필수적으로 연관되는 요소이다.

빅데이터는 AI의 Machine Learning과 Deep Learning에 이용된다.

이로 인해 AI의 정확성과 판단 수준을 높일 수 있게된다.

 

이렇게 정확성과 판단수준이 높아진 인공지능은 체계적이고 빠른 빅데이터 분석에 활용된다.

 

빅데이터는 어떻게 활용될까?

1. 서울 올빼미 버스 : 전화통화 기록을 이용하여 휴대폰을 많이 사용하는 지역을 분석하여

심야시간에 시민들이 어디에서 출발하고 어디로 향하는지 파악하여 운영

 

2. : 천재지변 대응 : 과거 지리적 현상 발생과 역사적 데이터를 통하여 예측

 

3. 조직의 의사결정 : 빅데이터 자체로는 효용이 없지만,

이를 잘 분석하면 조직의 의사결정에 있어서 훌륭한 자료가 된다.

이 자료를 시각적으로 보기 좋게 정리하는 일련의 과정을 비즈니스 인텔리전스(BI)라 한다.

 

국내외 기업의 빅데이터 활용

아마존 : 소비자의 물품 주문을 사전에 예측, 데이터 센터 효율화

구글, 페이스북 : 검색조건과 사진,동영상 등을 이용하여 맞춤형 광고를 제시한다.

삼성SDS : 제조업, 생산성 향상

SK텔레콤 : 상권분석

KT : 해외 감염병의 국내 유입 예방

마이 데이터(MY Data) : 금융이나 의료 등의 분야에서 각 기관이나 기업마다

흩어져 있던 데이터를 모아 활용할 수 있도록 지원하는 정책

 

빅데이터의 문제점

사생활 침해와 보안 : 빅데이터는 수많은 개인들의 수많은 정보의 집합이다.

빅데이터를 수집, 분석할때 사적인 정보까지 수집하여 관리될수 있으며,

이렇게 모은 데이터가 보안 문제로 유출된다면, 큰 문제가 될 수 있다.

 

결론 : 빅데이터는 결국 데이터를 이용하여 미례를 '예측'하기 위한 기술이다.

 

참조 : https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0

 

빅 데이터 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 빅 데이터(영어: big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데�

ko.wikipedia.org

 

댓글

💲 광고입니다.