빅 데이터의 유형은 무엇입니까?

게시 됨: 2022-11-24

빅 데이터 유형을 이해하면 대규모 데이터 세트를 더 잘 처리할 수 있습니다.

AI , 기계 학습 및 비즈니스 분석의 많은 발전은 빅 데이터 덕분에 가능합니다. 데이터는 자동차를 자율 주행하는 알고리즘을 강화하고, 우리가 봐야 할 다음 영화를 제안하고, 비즈니스 리더에게 수익을 늘리는 방법을 알려줍니다.

그러나 모든 데이터가 동일하게 생성되는 것은 아닙니다.

비즈니스 및 고객이 생성한 데이터를 효과적으로 분류, 구성 및 분석하기 위해 비즈니스 분석가 또는 데이터 과학자는 작업 중인 데이터 유형을 알아야 합니다.

/ 빅데이터란?

빅데이터란 정교한 처리와 분석이 필요한 대용량, 고속, 다품종 정보를 말한다. 데이터만으로는 도움이 되지 않습니다. 비즈니스 프로세스 개선의 핵심은 데이터 분석입니다. 기업은 데이터의 패턴을 강조 표시하는 데이터 마이닝과 같은 여러 기술을 사용하여 빅 데이터를 분석합니다. 예를 들어 기업은 데이터를 마이닝하여 어떤 판매 제안이 특정 소비자에게 어필할 수 있는지 알아볼 수 있습니다. 기업이 빅 데이터를 올바르게 처리하면 더 나은 의사 결정이 가능하고 더 나은 고객 서비스와 더 나은 제품을 제공할 수 있습니다.

빅데이터의 특징과 주요 유형에 대해 알아보겠습니다.

빅 데이터 특성: 5V

빅 데이터는 많은 유형의 데이터에 적용되는 일반적인 용어이지만 빅 데이터를 정의하는 데 일반적으로 사용되는 5가지 특성(5V 또는 빅 데이터의 기능이라고도 함)이 있습니다.

1. 볼륨

이 특성은 이름에 있습니다. 빅 데이터는 큽니다. 빅의 정의는 상대적이며 당시 사용 가능한 기술에 따라 변경됩니다. 예를 들어, 3기가바이트 하드 드라이브는 한때 거대하다고 여겨졌지만 지금은 테라바이트 저장 용량을 갖춘 노트북이 표준입니다.

2. 속도

빅 데이터는 빠르게 생성됩니다. IoT 장치의 센서는 초당 여러 번 메시지를 보냅니다. 웹사이트 분석은 방문자의 모든 마우스 움직임을 모니터링하여 브라우징 습관에 대한 통찰력을 얻습니다. 이 데이터를 사용하는 애플리케이션은 가능한 한 실시간에 가깝게 처리해야 하는 경우가 많습니다.

3. 다양성

다양성은 이 기사의 주요 주제입니다(자세한 내용은 계속 읽으십시오!). 빅 데이터에는 상당한 다양성이 있습니다. 데이터를 수집하는 모든 조직은 다양한 소스와 다양한 형식으로 데이터를 수집합니다. 이 데이터를 유용한 정보로 바꾸려면 다양한 소스의 데이터를 결합해야 합니다.

4. 진실성

진실성은 데이터 품질을 정의하는 특성입니다. 수집된 모든 데이터가 완전하지는 않습니다. 정확하지 않거나 손상된 데이터 포인트를 포함할 수 있습니다. 지저분한 빅 데이터는 득보다 실이 많을 수 있습니다. 정확한 통찰력을 제공하기 위해 데이터를 정리하거나 폐기해야 할 수 있습니다.

5. 가치

데이터가 많다고 해서 모든 데이터가 유용한 것은 아닙니다. 빅 데이터의 또 다른 특징은 통찰력의 형태로 가치를 제공한다는 것입니다.

빅 데이터에 대한 도움을 받기 위해 데이터 분석 회사를 고용할 생각이십니까? 최고의 데이터 분석 회사 목록을 찾아보고 Capterra의 고용 가이드에서 서비스에 대해 자세히 알아보십시오.

빅 데이터의 3가지 주요 유형

다양한 유형의 빅 데이터에 대해 무한한 수의 범주를 만들 수 있지만 빅 데이터를 구조화, 비구조화 및 반구조화의 세 가지 주요 유형으로 분류하는 것이 훨씬 간단합니다.

1. 구조화된 데이터

구조화된 빅 데이터는 고정된 스키마에 저장된 데이터입니다. 가장 일반적으로 이는 관계형 데이터베이스 관리 시스템 또는 RDBMS에 저장됨을 의미합니다. 이 데이터는 각 레코드에 고정된 속성 집합이 있고 각 속성에 고정 데이터 유형이 있는 테이블에 저장됩니다.

한 가지 예는 데이터베이스의 사용자 레코드입니다.

ID	이메일	이름	도시	상태	우편 번호
1	[email protected]	단발	캔자스시	미주리	64030
2	[email protected]	사라	시카고	일리노이	60007
삼	[email protected]	샘	뉴욕	뉴욕	10001
4	[email protected]	약간 뒤틀리게 하다	로스 앤젤레스	캘리포니아	90001

이 테이블의 모든 레코드는 동일한 구조를 가지며 각 속성에는 특정 유형이 있습니다. 예를 들어 State 열은 두 개의 대문자로 제한되고 ID 및 ZIP 코드 열은 정수로 제한됩니다. 이 구조에 맞지 않는 레코드를 데이터베이스에 삽입하려고 하면 허용되지 않으며 오류가 표시됩니다.

구조화된 빅 데이터는 일반적으로 관계형입니다. 이는 위의 사용자 테이블과 같은 레코드가 다른 테이블의 레코드에 연결될 수 있음을 의미합니다. 사용자 테이블이 장바구니용이고 각 사용자에게 주문이 있다고 가정해 보겠습니다.

ID	사용자 ID	안건	총
1	1	컵	2.00
2	2	그릇	4.00
삼	2	그릇	3.00
4	4	숟가락	1.00

위 주문 테이블의 User_ID 속성은 주문을 사용자 테이블의 ID에 연결합니다. Sara는 두 개의 주문이 있고 Sam은 아직 주문하지 않은 것을 볼 수 있습니다.

이러한 유형의 정적 구조는 데이터를 일관되고 쉽게 입력, 쿼리 및 구성할 수 있도록 합니다. 이와 같은 데이터베이스 테이블을 쿼리하는 데 사용되는 언어는 SQL(Structured Query Language)입니다. SQL을 사용하여 개발자는 데이터베이스 테이블의 레코드를 관계에 따라 무한한 조합으로 조인하는 쿼리를 작성할 수 있습니다.

구조화된 데이터의 단점은 테이블 구조를 업데이트하는 과정이 복잡할 수 있다는 것입니다. 데이터베이스를 사용하기 전에 테이블 구조에 대해 많은 생각을 해야 합니다. 이러한 유형의 빅 데이터는 반정형 데이터만큼 유연하지 않습니다.

2. 비정형 데이터

일부 추산에 따르면 데이터의 80~90%는 구조화되지 않은 데이터입니다. ^{[ 1 ]} 그러나 구조화되지 않은 빅 데이터란 무엇입니까? 여기서 다른 두 범주에 맞지 않는 모든 데이터는 구조화되지 않은 것으로 간주됩니다.

디지털 방식으로 저장된 모든 것은 데이터입니다. 구조화되지 않은 데이터에는 텍스트, 이메일, 비디오, 오디오, 서버 로그, 웹 페이지 등이 포함됩니다. 일관된 방식으로 쿼리하고 검색할 수 있는 정형 및 반정형 데이터와 달리 비정형 데이터는 일관된 데이터 모델을 따르지 않습니다.

이는 단순히 쿼리를 사용하여 이 데이터를 유용한 정보로 바꾸는 대신 데이터 소스에 따라 더 복잡한 프로세스를 사용해야 함을 의미합니다. 기계 학습, 인공 지능, 자연어 처리 및 광학 문자 인식(OCR)이 유용할 수 있는 곳입니다.

구조화되지 않은 데이터의 한 가지 예는 지출 보고서용으로 저장되는 스캔된 영수증입니다. 기본 이미지 형식에서 데이터는 본질적으로 쓸모가 없습니다. 여기에서 OCR 소프트웨어는 이미지를 데이터베이스에 삽입할 수 있는 구조화된 데이터로 변환할 수 있습니다.

비정형 빅데이터의 단점은 처리가 어렵고 각 데이터 소스마다 맞춤형 프로세서가 필요하다는 것입니다. 장점은 다양한 유형의 구조화되지 않은 데이터가 존재한다는 것입니다. 여기에서 수집된 인사이트는 다른 데이터 소스에서 찾을 수 없는 경우가 많습니다.

3. 반구조화된 데이터

반구조화된 빅 데이터는 구조화된 데이터와 구조화되지 않은 데이터 사이에 적합합니다. 반정형 데이터의 일반적인 소스는 NoSQL 데이터베이스입니다. NoSQL 데이터베이스의 데이터는 구성되어 있지만 관계형이 아니며 일관된 스키마를 따르지 않습니다.

예를 들어 NoSQL 데이터베이스의 사용자 레코드는 다음과 같습니다.

{ _id: ObjectId("5effaa5662679b5af2c57829"), 이메일: "[email protected]", 이름: "Sam", 주소: "101 Main Street" 도시: "인디펜던스", 주: "아이오와" }

여기에서 사용자는 레코드의 키로 필요한 데이터에 액세스합니다. 위의 구조화된 데이터 예제의 레코드와 유사해 보이지만 일관된 테이블 형식은 아닙니다.

대신 데이터 개체를 저장하고 전송하는 데 사용되는 JSON 형식입니다. 데이터베이스의 이 한 레코드가 이 속성 집합을 가질 수 있지만 나머지 레코드가 동일한 구조를 갖는다는 것을 의미하지는 않습니다. 다음 레코드에는 거리 주소가 없을 수 있지만 대신 ZIP 코드가 있습니다.

NoSQL 데이터베이스에 저장된 반정형 데이터의 장점은 매우 유연하다는 것입니다. 레코드에 더 많은 데이터를 추가해야 하는 경우 새 키로 추가하기만 하면 됩니다. 일관성 있는 데이터가 필요한 경우에도 단점이 될 수 있습니다.

그러나 NoSQL 데이터가 반구조화된 빅 데이터의 유일한 유형은 아닙니다. XML과 YAML은 애플리케이션이 데이터를 전송하고 저장하는 데 사용하는 두 가지 유연한 데이터 형식입니다. 본문은 비정형 데이터인 반면 이메일 주소, 보낸 시간, IP 주소와 같은 일부는 일관되게 구문 분석할 수 있기 때문에 이메일도 반정형 데이터로 간주될 수 있습니다.

정형 데이터, 반정형 데이터, 비정형 데이터 비교

이 표는 이러한 세 가지 유형의 빅 데이터 간의 차이점을 더 잘 보여줍니다.

	구조화	반구조화	구조화되지 않은
체재	가장 일반적으로 데이터가 구조화된 테이블에 정렬되고 정수, 부동 소수점 및 텍스트와 같은 특정 유형이 있는 관계형 데이터베이스의 데이터입니다.	가장 일반적으로 NoSQL 데이터베이스의 데이터이며 JSON, XML 또는 YAML과 같은 데이터 직렬화 언어로 전송됩니다.	구조화되지 않은 데이터는 스키마를 따르지 않으며 로그 파일, 원시 텍스트, 이미지, 비디오 등의 형식을 취할 수 있습니다.
쿼리	구조화되고 일관된 방식으로 SQL을 사용하여 신속하게 쿼리할 수 있습니다.	이 데이터는 쿼리할 수 있지만 반구조적 특성으로 인해 레코드가 일관되지 않을 수 있습니다.	원시 데이터는 많은 경우 사용자 지정 코드로 구문 분석 및 처리되어야 합니다.
업무	데이터베이스는 종속 데이터가 업데이트되도록 트랜잭션을 지원합니다.	트랜잭션은 NoSQL 데이터베이스에서 부분적으로 지원됩니다.	비정형 데이터로는 트랜잭션이 불가능합니다.
유연성	구조화된 데이터 세트에는 복잡한 업데이트 프로세스가 있으며 그다지 유연하지 않습니다.	NoSQL 데이터베이스는 데이터 스키마를 동적으로 업데이트할 수 있기 때문에 유연합니다.	비정형 데이터는 가장 유연하지만 처리하기 가장 어렵습니다.

데이터 원본을 평가하여 빅 데이터 시작하기

빅 데이터 프로젝트의 좋은 첫 번째 단계는 귀하와 귀하의 비즈니스에서 사용할 수 있는 모든 데이터 소스의 목록을 작성하고 유형별로 분류하는 것입니다. 이를 통해 유용한 통찰력을 제공하기 위해 데이터 처리 및 컴파일을 시작할 수 있습니다.

현대 비즈니스에서 빅 데이터와 빅 데이터의 역할에 대해 자세히 알아보려면 다음 리소스를 확인하십시오.

빅 데이터란 무엇이며 어떻게 생성됩니까?
새로운 비즈니스 인텔리전스 전략을 수립하는 방법