안녕하세요

빅데이터 컴퓨팅 기술 연습문제 4장 본문

Study_exam/빅데이터 컴퓨팅 기술 연습문제

빅데이터 컴퓨팅 기술 연습문제 4장

godxxy1229 2023. 4. 18. 03:11

01. 대표적인 빅데이터 플랫폼인 하둡은 분산 처리하는 데 ( 맵 리듀스 (MapReduce) )를 사용한다. 이는 하나의 큰 데이터를 여러 조각으로 나눠 처리하는 ( 맵 (Map) ) 단계와 처리된 결과를 하나로 취합하여 최종 결과를 도출해 내는( 리듀스 (Reduce) )단계로 구성되어 있다.

 

 

02. 데이터 처리 언어 프레임워크로 하둡에서 쉽게 데이터를 분석할 수 있도록 고수준 프로그래밍 환경을 제공하는 기술을 모두 고르시오.

 ① EC2

 ② Pig

 ③ Chukwa

 ④ HDFS

 Hive

 

 

① EC2는 아마존 웹 서비스에서 제공하는 클라우드 컴퓨팅 인프라이다. 데이터 처리 언어 프레임워크나 고수준 프로그래밍 환경을 제공하는 기술은 아니며, EC2 인스턴스를 이용하여 다양한 애플리케이션을 실행할 수 있다.

 

② Pig는 하둡에서 데이터 처리를 위한 고수준 스크립트 언어이며, SQL과 유사한 구문을 사용하여 데이터를 처리하고 분석할 수 있다. Pig는 MapReduce 작업을 처리하는데 사용되며, 데이터 처리 작업을 더욱 쉽게 수행할 수 있도록 고수준 프로그래밍 환경을 제공한다.

 

③ Chukwa는 하둡 클러스터에서 시스템 로그 데이터를 수집하고 분석하는 데 사용되는 분산 데이터 수집 및 처리 시스템이다. 하지만 고수준 프로그래밍 환경을 제공하는 기술은 아니다.

 

④ HDFS는 하둡 분산 파일 시스템으로, 대규모 데이터의 저장과 처리를 위한 분산 파일 시스템이다. 데이터 처리 언어 프레임워크나 고수준 프로그래밍 환경을 제공하는 기술은 아니다.

 

⑤ Hive는 하둡에서 데이터 처리를 위한 데이터웨어하우징 솔루션으로, SQL과 유사한 구문을 사용하여 데이터를 처리하고 분석할 수 있다. Hive는 MapReduce 작업을 처리하는데 사용되며, 데이터 처리 작업을 더욱 쉽게 수행할 수 있도록 고수준 프로그래밍 환경을 제공한다.

 

 

03. Cascading의 주요 특징을 서술하시오.

 데이터 처리 API 제공 : Cascading은 복잡한 데이터 흐름을 정의하고 정교한 데이터 중심 프레임워크를 개발할 수 있는 API를 제공한다.

 데이터 통합 API 제공 : Cascading을 이용하여 복잡한 통합 문제를 해결하기 전에 추 가할 기능들을 생성하고, 실제 환경과 비슷하게 테스트할 수 있게 한다.

 프로세스 스케줄러 API 제공 : 다른 응용 프로그램과 호환하여 프로세스 단위의 스케 줄을 지정·예약할 수 있다.

 기업 개발 지원 : 기업의 Java 개발 환경에 맞도록 설계하여 대규모 개발 및 테스트가 가능하다.

 다양한 언어 지원 : Java 기반의 Cascading은 Scala스칼라, Clojure클로저, Ruby루비, Jython자이썬, Grooovy그루비 등 JVM 기반의 다양한 언어를 지원한다.

 내결함성 지원 : 클러스터 중 일부 서버가 데이터 처리에 실패하면 다른 서버에 자동 으로 작업을 넘겨 활성화하도록 구성되어있다. 따라서 작업 실패 및 오류 때문에 발생한 손 실을 최소화한다.

 

 

04. 아파치 인큐베이터에 등록된 오픈 프로젝트로, 실시간 개인화 광고 및 검색 서비스 등 야후 서비스 운영에 활용하는 분산 스트림 처리 시스템은?

S4 (Simple Scalable Streaming System)

 

 

05. 다음 중 하둡에서 제공하는 HDFS가 아닌 NFS 기반의 자체 파일 시스템으로 개선된 상업용 하둡 배포판은?

 ① Boilerpipe
 ② MongoDB
 ③ Cassandra
 ④ MapR
 ⑤ Azkaban

 

 

MapR은 하둡 분산 파일 시스템(HDFS) 대신 MapR 파일 시스템(MFS)을 사용한다. MFS는 하둡에서 사용되는 HDFS의 단점인 네임노드의 싱글 포인트 오브 실패(SPOF) 문제와 일부 레거시 애플리케이션들이 지원하는 POSIX API를 제공하지 않는 문제 등을 해결하기 위해 개발되었다. 또한 MFS는 NFS 프로토콜을 기반으로 하기 때문에 다른 NFS 클라이언트와 호환성을 가지며, 이를 통해 데이터를 쉽게 공유하고 이전할 수 있다.

 

 

06. 다음 설명을 읽고 참/거짓으로 구분하시오.

 

①  Acunu는 아파치 Cassandra를 대체할 목적으로 개발했으며, 분석 및 범위 질의에 효과적인 저장 구조 플랫폼이다. ( )

② 사용자의 작업 관리를 도우려고 개발한 스케줄링 및 작업 제어 프로젝트로 Azkaban, Oozie 등이 있다. ( )
③ 아파치 Solr/Lucene은 Python 기반의 기업 검색 플랫폼으로, 강력한 전체-텍스트 검색, 다 각적 검색, 동적 클러스터링 등을 제공한다. ( 거짓 )

 

 

아파치 Solr/Lucene은 Java 기반의 기업 검색 플랫폼으로, 강력한 전체-텍스트 검색, 다 각적 검색, 동적 클러스터링 등을 제공한다.

 

 

07. 2010년 EMC가 인수한 PostgreSQL 기반의 데이터 저장 기술로, SQL 기본 연산 및 맵리듀스 처리가 가능하며, 정형 데이터와 비정형 데이터의 통합적인 분석을 지원하는 플랫폼으로 성장한 기술은?

Greenplum (그린플럼)

 

 

08. 다음 중 R을 설명한 것은?


 ① 통계적 계산과 그래픽을 처리하는 상용 온라인 서비스이다.

 ② 설치 및 사용이 어려워 프로그램 전공자가 아니면 사용하기 힘들다.

 다양한 통계 기법과 수치 해석 기법을 지원하며, 사용자 패키지를 추가할 수 있다.

 ④ 결과의 시각화는 제공하지 않는다.

 

 

09. IBM에서 빅데이터를 분석해 주는 InfoSphere BigInsights와 InfoSphere Streams를 간략하 게 정의하고, 차이점을 서술하시오.

IBM의 InfoSphere BigInsights는 인터넷에서 정형화된 데이터 및 비정형화된 데이터를 관리하고 분석하는 IBM의 다목적 솔루션이다. 하둡을 기반으로 하며, 개인 사용자 및 기업의 요구를 해결하려고 IBM 연구 팀의 다양한 분석 기술에 관리, 워크플로우, 프로비저닝, 보안 기능을 접목시켰으며 새로운 기능 몇 가지를 추가하여 기존의 분석 기술을 더욱 향상시켰다. 

 

IBM의 InfoSphere Streams는 짧은 시간 안에 방대한 양의 스트리밍 데이터를 지속적으로 분석할 수 있는 IBM의 또 다른 솔루션이다. InfoSphere Streams는 다양한 정형화 데이터 및 비정형화 데이터 유형을 모두 지원하는 강력한 확장성과 빠른 속도의 인프라를 제공한다.

 

InfoSphere BigInsights는 정형화된 데이터 및 비정형화된 데이터를 관리하고 분석하는데 적합하며, InfoSphere Streams는 실시간 스트리밍 데이터를 지속적으로 분석하는 데 적합하다.