[데이터 수집] 데이터 유형별 수집 기술

데이터 수집은 여러 곳에 분산된 데이터를 한 곳으로 모으는 과정입니다. 데이터는 크게 3가지 유형(정형, 비정형, 반정형)이며, 그에 따른 데이터 수집 방식 및 기술들이 상이합니다. 이에 수집 시스템 사양을 설계하기 위해서는 수집 데이터 유형을 정확히 확인하고, 그에 맞는 수집 기술을 적용하면 됩니다.

1. 정형 데이터 수집 기술

정형 데이터(Structured Data)는 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터로 비정형 데이터와 달리 연산이 가능하며, 명확한 스키마 구조를 가지고 있습니다. 정형 데이터의 대표적인 예로 관계형 데이터베이스(RDB, Relational Database), 스프레드시트(spreadsheet), CSV 데이터 등이 있습니다. [정보통신용어사전으로 자세히 보기]

1) ETL

ETL은 추출(Extract), 변환(Transform), 적재(Load)를 의미하며, 하나 이상의 데이터 소스를 목표로 하는 형식이나 구조로 데이터를 변환하고, 데이터 웨어하우스, 데이터 마트 등 다양한 시스템에 저장하는 데이터 통합 프로세스입니다.

2) FTP

FTP(File Transfer Protocol)은 TCP/IP 또는 UDP 프로토콜을 통해 서버와 클라이언트 사이의 대량 파일(데이터)을 송/수신하는 기술입니다. 인터넷을 통한 파일 송수신 전용으로 만들어져 방식이 단순하며, 빠른 속도로 파일을 주고 받을 수 있습니다.

3) API

API(Application Programming Interface)는 두 시스템 간 연동을 통해 실시간으로 데이터를 서로 통신(송수신)할 수 있는 기술을 말합니다. 일례로 우리가 매일 확인하는 휴대폰 날씨 앱은 API를 통해 기상청 시스템(기상 데이터)과의 연동하여 매일 최신 날씨 정보를 제공합니다.

4) DBToDB

DBToDB는 데이터베이스 관리시스템(DBMS) 간에 데이터를 동기화 하거나 전송하는 기능을 말합니다.

5) 아파치 스쿱

아파치 스쿱(Sqoop)은 관계형 데이터베이스의 데이터와 하둡 간에 데이터를 효과적으로 전송하는 기술입니다. 모든 적재 과정을 자동화하며, 맵리듀스(대용량 데이터를 분산 처리 목적으로 개발된 프로그래밍 모델)를 통해 데이터를 가져오고 내보내기 때문에 병렬처리가 가능합니다.

2. 비정형 데이터 수집 기술

비정형 데이터(Unstructured Data)는 구조가 정해지지 않은 데이터를 말하며, 동영상, 이미지, 음성, 문서 등이 있습니다.

1) 크롤링

크롤링(Crawling)은 인터넷에서 제공되는 다양한 웹사이트, SNS 등으로부터 웹문서, 정보 등을 수집하는 기술입니다.

2) RSS

RSS(Rich Site Summary)는 웹사이트에 게시된 새로운 글들을 사이트 방문 없이 한 곳에서 볼 수 있는 XML 기반의 정보 배포 프로토콜입니다.

3) Open API

용어 그대로 누구나 사용이 가능하도록 공개된 API를 말합니다.

그 외 비정형 데이터 기술로는 카프카(Kafka, 대용량 실시간 로그처리 위한 분산 스트리밍 플랫폼 기술), 척와(Chukwa, 분산시스템으로부터 데이터를 수집해 하둡 파일 시스템에 저장하고, 실시간 분석이 가능한 오픈소스 데이터 로그 수집 시스템) 등이 있습니다.

3. 반정형 데이터 수집 기술

반정형 데이터(Semi-structured Data)는 스키마 정보를 데이터와 같이 제공되는 파일 형식의 데이터로 JSON, XML, RDF, HTML 등이 있습니다.

1) 플럼

플럼(Flum)은 대용량의 로그 데이터, 네트워크 트래픽 데이터, 소셜 미디어 데이터 등을 수집, 전송해주는 솔루션입니다.

2) 스크라이브

스크라이브(Scribe)는 실시간으로 수집 대상 서버를 통해 데이터를 수집, 분산 시스템에 데이터를 저장하는 기능입니다.

그 외 반정형 데이터 기술로는 센싱(Sensing, 센서를 통해 수집된 데이터를 네트워크를 활용해 수집하는 기능), 스트리밍(Streaming, 네트워크를 통해 센서 데이터, 미디어 데이터를 실시간으로 수집하는 기술) 등이 있습니다.

답글 남기기