안녕하세요
빅데이터 컴퓨팅 기술 연습문제 2장 본문
01. 다음 중 로그 수집용 환경이 아닌 것은?
① Flume
② Chukwa
③ Scribe
④HDFS
Flume, Chukwa, Scribe는 HDFS를 로그 데이터의 데이터 싱크로 활용하는 로그 수집 및 배포 프레임워크이다. HDFS는 하둡 분산 파일 시스템으로, 데이터 저장을 위한 시스템이다.
02. 아파치에서 2009년에 시작한 SQOOP 프로젝트를 설명하시오.
기존 RDBMS 에서 하둡으로 데이터를 이전하려고 시작한 프로젝트이다. JDBC인터페이스를 사용하므로 MySQL, PostgreSQL, 오라클 등 다양한 데이터베이스 시스템을 지원한다. 아파치 하둡 기반 프로젝트인 Hive, Pig, Hbase 등과도 호환이 잘되어RDMS와 NoSQL 간의 데이터 연동에 많이 사용된다.
03. LinkedIn에서 사용하는 분산 메시지 시스템으로, 실시간 및 오프라인 데이터 처리 · 수집에 사용하며, 메시지 큐와 로그 수집기의 중간 영역에 있는 것으로 볼 수 있는 프로젝트는?
Kafka (카프카)
04. 다음 중 OpenRefine을 설명한 것은?
① 소규모 데이터에 적합한 기술이다.
② 데이터를 정리하는 데이터 정제 기술이다.
③ 불필요한 데이터 정리는 가능하나, 데이터 집합의 오류 및 오타 수정은 불가능하다.
④ 사용자용 API나 워크플로우 등은 제공하지 않는다.
①: OpenRefine은 오픈 소스 데이터 정제 도구이다. 데이터 정제를 위한 GUI 기반 도구로, 대규모 데이터 집합에서 데이터를 정제하고 변환하는 데 사용된다.
③: OpenRefine은 데이터 집합에서 오류, 오타, 불일치, 중복 등을 식별하고 수정할 수 있다. 또한 데이터 집합의 일부를 추출하거나, 필요한 부분을 변환하거나, 데이터 집합을 조합하거나, 기타 변형을 적용할 수 있다.
④: OpenRefine은 사용자용 API와 워크플로우를 지원하며, 데이터 집합에서 CRUD 작업과 데이터 변환, 필터링, 정규화, 집계 등을 수행할 수 있다.
05. 인터넷에서 데이터를 송수신하는 표현 방식 중 하나로, 기존 XML과 데이터 표현 형태가 비슷하며 용량이 작고 변환 속도가 빠른 기술은?
JSON
06. BSON 형식을 설명하시오.
BSON(Binary JSON)은 JSON의 이진 표현 방식으로,데이터 저장 엔진으로 활용된다. JSON에 비해 속도가 빠르고 크기가 작다는 특징이 있다. 저장공간의 활용이 비효율적이며 지원하는 라이브러리가 많지 않다.
07. 다음 설명을 참/거짓으로 구분하시오.
① Thrift는 확장성 높은 이기종 언어를 지원하는 프레임워크로, 아마존에서 개발했다. ( 거짓 )
② Protocol Buffers는 직렬화 라이브러리 중 하나로, XML에 비해 빠른 속도, 작은 데이터 크기 등의 장점이 있다. ( 참 )
③ Avro는 직렬화가 아닌 이기종과 통신에 초점을 맞춘 프로젝트로, 하둡 창시자인 Doug Cutting이 개발했다. ( 거짓 )
① Thrift는 확장성 높은 이기종 언어를 지원하는 프레임워크로, 메타(페이스북)에서 개발했다.
③ Avro는 데이터 직렬화를 지원하며 이기종과 통신에 초점을 맞춘 프로젝트로, 하둡 창시자인 Doug Cutting이 개발했다.
'Study_exam > 빅데이터 컴퓨팅 기술 연습문제' 카테고리의 다른 글
빅데이터 컴퓨팅 기술 연습문제 6장 (0) | 2023.06.15 |
---|---|
빅데이터 컴퓨팅 기술 연습문제 5장 (1) | 2023.06.15 |
빅데이터 컴퓨팅 기술 연습문제 4장 (0) | 2023.04.18 |
빅데이터 컴퓨팅 기술 연습문제 3장 (0) | 2023.04.18 |
빅데이터 컴퓨팅 기술 연습문제 1장 (3) | 2023.04.17 |