안녕하세요
빅데이터 컴퓨팅 기술 연습문제 1장 본문
01. 정보 기술의 패러다임을 PC 시대, 인터넷 시대, 모바일 시대, 스마트 시대로 구분하여 패러다임 기술과 핵심 기술 이슈를 설명하시오.
PC시대 | 인터넷시대 | 모바일시대 | 스마트시대 | |
패러다임 기술 | 디지털화, 전산화 | 온라인화, 정보화 | 소셜화, 모바일화 | 지능화, 개인화, 사물정보화 |
핵심 기술 이슈 | PC, PC통신, 데이터베이스 | 초고속 인터넷, www, 웹 서버 | 모바일 인터넷, 스마트폰 | 빅데이터, 차세대 PC, 사물 네트워크 |
정보 기술의 패러다임은 PC 시대, 인터넷 시대, 모바일 시대, 스마트 시대로 구분할 수 있다. PC 시대의 패러다임 기술은 디지털화와 전산화이며, 핵심 기술 이슈는 PC, PC통신, 데이터베이스이다. 인터넷 시대의 패러다임 기술은 온라인화와 정보화이며, 핵심 기술 이슈는 초고속 인터넷, www, 웹 서버이다. 모바일 시대의 패러다임 기술은 소셜화와 모바일화이며, 핵심 기술 이슈는 모바일 인터넷과 스마트폰이다. 스마트 시대의 패러다임 기술은 지능화와 개인화, 사물 정보화이며, 핵심 기술 이슈는 빅데이터와 차세대 PC, 사물네트워크이다.
02. 빅데이터가 차세대 이슈로 떠오르는 이유를 세 가지만 나열하시오.
정보통신 기술의 주도권이 데이터로 이동: 모바일, 클라우드, 소셜 네트워크 서비스 등이 등장하면서 정보통신 기술의 주도권이 인프라와 기술 등에서 데이터로 이전되고 있다. 이에 데이터의 폭발적인 증가에 대응하고 데이터를 분석하는 방법이 정보통신 기술의 가장 중요한 이슈로 부각되었다.
공간, 시간, 관계, 세상 등을 담은 빅데이터: 스마트기기의 확산으로 사용자가 자발적으로 참여하고 정보를 생성하는 소셜데이터 혁명이 발생했다. 소셜 데이터 혁명은 정보의 생성자, 규모, 파급 효과 등에서 1990년대 기업이 고객의 정보를 축적했던 정보 혁명과는 구분된다. 소셜 네트워크 서비스의 이용 확산과 소통 방식의 변화는 데이터의 변혁을 가져오는 가장 중요한 요인이 되었다.
미래의 경쟁력과 가치 창출의 원천: 빅데이터에는 잠재적 가치와 위험이 공존하는데, 사회적·경제적으로 성패를 좌우하는 핵심 원천이 될 것으로 평가된다. 이에 세계 각국의 정부와 기업은 빅데이터가 향후 기업 경영의 성패를 가늠할 새로운 경제적 가치가 될 것이라고 예상한다.
03. 빅데이터를 정의하시오.
일반적인 DBMS(DataBase Management System)로 저장, 관리, 분석할 수 있는 범위를 초과하는 대규모 데이터이다. (Mckinsey)
04. 정형화 정도에 따른 빅데이터의 종류를 나열하시오.
종류 | 설명 |
정형 | 고정된 필드에 저장된 데이터 예: 관계형 데이터베이스, 스프레드시트 |
반정형 | 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터 예: XML, HTML 텍스트 |
비정형 | 고정된 필드에 저장되어 있지 않은 데이터 예: 텍스트 분석이 가능한 텍스트 문서, 이미지·동영상·음성 데이터 |
05. 기존 데이터와 빅데이터를 처리하는 차이점을 설명하시오.
빅데이터는 기존 데이터와는 달리 대규모의 데이터를 다루기 때문에 이를 처리하기 위해 분산처리 시스템과 같은 대규모 컴퓨팅 자원이 필요하며, 이를 위해 하둡과 같은 분산처리 시스템이 사용된다.
06. 빅데이터의 속성은 3V로 정의할 수 있는데, 3V를 설명하시오.
3V는 Volume(양), Variety(다양성), Velocity(속도)를 의미한다. Volume은 데이터의 양을, Variety는 데이터의 다양성을, Velocity는 데이터의 생성 속도를 의미한다.
07. 빅데이터 처리 과정을 설명하시오.
수집한 데이터들을 실시간으로 일괄 처리하게 되는데 일종의 데이터 정제과정이다. 데이터셋에서 원하는 부분만 혹은 전체를 추출하고, 분석을 위해 데이터셋을 재배치하는 등의 데이터 셋의 폼을 바꾸는 과정이다.
08. 빅데이터 분석 과정을 설명하시오.
상황에 따라 앞선 처리과정에서 전처리가 될 수도 있고 분석과정에서 먼저 전처리를 한다. 데이터들 분석할 수 있는 Type으로 전처리한 후 수학적인 기법을 적용하여 통계 분석, AI에서 대표적인 딥러닝, 머신러닝 기법들을 통해 예측, 분류 등의 분석결과를 만들어 낸다.
09. 빅데이터 처리 과정별 기술 영역을 설명하시오.
빅데이터 처리 과정은 크게 6가지로 분류된다. 데이터의 생성, 수집, 저장, 처리, 분석, 표현 과정으로 나누어지며 각 과정에는 다양한 기술이 필요하다.
1. 데이터 소스: DBMS나 시스템의 내부 데이터, SNS 등의 소셜 미디어, 공공 데이터와 같은 데이터 웨어하우스 등의 외부 데이터, 이미지, 영상 등의 미디어들이 처리를 위한 소스가 된다.
2. 수집: 비즈니스 목적에 알맞은 데이터 소스를 수집한다. 시스템이나 소프트웨어를 이용하여 로그를 수집하거나, 크롤링, 하드웨어를 이용한 세싱이 있다.
3. 저장: 수집한 데이터들은 정형, 비정형, 반정형의 형태를 보이면 적절한 방법으로 빅데이터 시스템에 저장한다.
4. 처리: 수집한 데이터들을 실시간으로 일괄 처리하게 되는데 일종의 데이터 정제 과정이다. 데이터셋에서 원하는 부분만 혹은 전체를 추출하고, 분석을 위해 데이터셋을 재배치하는 등의 데이터 셋의 폼을 바꾸는 과정이다.
5. 분석: 상황에 따라 앞선 처리과정에서 전처리가 될 수도 있고 분석과정에서 먼저 전처리를 해준다. 데이터들 분석할 수 있는 Type으로 전처리한 후 수학적인 기법을 적용하여 통계 분석, AI에서 대표적인 딥러닝, 머신러닝 기법들을 통해 예측, 분류 등의 분석결과를 만들어 낸다.
6. 표현: 분석 결과를 시각화하는 과정으로 분석 결과 그 자체가 될 수 있고 그래프, 스프레드시트, DB, 인포그래픽 등 다양한 형태로 직관적이고 보기 편하게 표현한다.
10. 빅데이터를 처리하는 구성도를 작성하시오.
11. 조직 유형별 빅데이터 플랫폼의 모습을 설명하시오.
구분 | 전통적 데이터 | 빅데이터 |
데이터 원천 | 전통적 정보 서비스 | 일상화된 정보 서비스 |
목적 | 업무와 효율성 | 사회적 소통, 자기표현, 사회 기반 서비스 |
생성 주체 | 정부 및 기업 등 조직 | 개인 및 시스템 |
데이터 유형 | ■ 정형 데이터 ■ 조직 내부 데이터(고객 정보, 거래 정보 등) ■ 주로 비공개 데이터 |
■ 비정형 데이터(비디오 스트림, 이미지, 오디오, 소 셜 네트워크 등 사용자 데이터, 센서 데이터, 응 용 프로그램 데이터 등) ■ 조직 외부 데이터 ■ 일부 공개 데이터 |
데이터 특징 | ■ 데이터 증가량 관리 가능 ■ 신뢰성 높은 핵심 데이터 |
■ 기하급수로 양적 증가 ■ 쓰레기Garbage 데이터 비중 높음 ■ 문맥 정보 등 다양한 데이터 |
데이터 보유 | 정부, 기업 등 대부분 조직 | ■ 인터넷 서비스 기업(구글, 아마존 등) ■ 포털(네이버, 다음 등) ■ 이동 통신 회사(SKT, KTF 등) ■ 디바이스 생산 회사(애플, 삼성전자 등) |
데이터 플랫폼 | 정형 데이터를 생산·저장·분석·처리할 수 있는 전통적 플랫폼 예: 분산 DBMS, 다중처리기, 중앙 집중 처리 |
비정형 대량 데이터를 생산·저장·분석·처리할 수 있는 새로운 플랫폼 예: 대용량 비정형 데이터 분산 병렬 처리 |
12. 빅데이터 자동 수집 방법을 설명하시오.
방법 | 설명 |
로그 수집기 | 내부에 있는 웹 서버의 로그를 수집. 즉, 웹 로그, 트랜잭션 로그, 클릭 로그, DB의 로그 데이 터 등 수집 |
크롤링 | 주로 웹 로봇으로 거미줄처럼 얽혀 있는 인터넷 링크를 따라다니며 방문한 웹 사이트의 웹 페이지라든가 소셜 데이터 등 인터넷에 공개되어 있는 데이터 수집 |
센싱 | 각종 센서로 데이터 수집 |
RSS 리더/오픈 API | 데이터의 생산·공유·참여 환경인 웹 2.0을 구현하는 기술로 필요한 데이터를 프로그래밍으 로 수집 |
ETL (Extraction, Transformation, and Loading) | 데이터의 추출, 변환, 적재의 약자로, 다양한 소스 데이터를 취합해 데이터를 추출하고 하나의 공통된 형식으로 변환하여 데이터웨어하우스에 적재하는 과정 지원 |
13. 빅데이터와 연계된 기술들을 설명하시오.
용어 | 설명 |
Cassandra (카산드라) | ■ 분산 시스템에서 대용량 데이터를 처리할 수 있도록 설계된 오픈 소스 데이터베이스 관리 시스템 ■ 원래 페이스북에서 개발했으며 지금은 아파치 소프트웨어 재단에서 한 프로젝트로 관리 |
Hadoop (하둡) | ■ 분산 시스템에서 대용량 데이터 처리 분석을 지원하는 오픈 소스 소프트웨어 프레임워크 ■ 구글이 개발한 맵리듀스를 오픈 소스로 구현한 결과물 ■ 야후에서 최초로 개발했으며, 지금은 아파치 소프트웨어 재단에서 한 프로젝트로 관리 ■ 주요 구성요소로는 하둡 분산 파일 시스템인 HDFS, 분산 컬럼 기반 데이터베이스인 HBase, 분산 컴퓨팅 지원 프레임워크인 맵리듀스 포함 |
HBase (H베이스) | ■ 구글의 ‘빅테이블’을 참고로 개발된 오픈 소스 분산 비관계형 데이터베이스 ■ 파워셋에서 개발했으며, 현재는 아파치 소프트웨어 재단에서 한 프로젝트로 관리 |
MapReduce (맵리듀스) | ■ 분산 시스템에서 대용량 데이터 세트를 처리하려고 구글이 제안한 소프트웨어 프레임워크 ■ 하둡에서도 구현 |
NoSQL | ■ Not-only SQL 또는 No SQL을 의미 ■ 전통적인 관계형 데이터베이스와 다르게 설계된 비관계형 데이터베이스 ■ 대표적인 NoSQL 솔루션으로는 Cassandra, HBase, MongoDB 등이 있음 |
14. 주요 국가별 빅데이터 동향을 설명하시오.
국가 | 빅데이터 동향 |
미국 | 빅데이터 기술 및 서비스의 선도적인 역할을 하고 있으며, 정부와 기업이 협력하여 빅데이터 관련 연구와 개발에 투자하고 있음 |
중국 | 빅데이터의 수요가 급증하고 있으며, 빅데이터 기술을 활용하여 정부, 기업 및 인프라 관리에 적용하고 있음 |
유럽 | 빅데이터 분야를 중요한 경제성장 동력으로 인식하고, 이를 지원하기 위해 다양한 정책과 프로그램을 추진하고 있음 |
일본 | 빅데이터를 활용하여 고령화 사회와 인구 감소에 대응하고, 산업 구조의 변화와 혁신을 추진하고 있음 |
15. 주요 기업별 빅데이터 현황을 설명하시오.
기업 | 빅데이터 현황 |
삼성전자 | 스마트폰, TV 등의 개발·마케팅·영업 등에 빅데이터를 적극 활용하기 위해 ‘빅데이터센터’ 신설 |
네이버 | 데이터랩을 통해 검색어 추이, 업종별 검색 사용자 수, 아파트 실거래 지표 등 공개 |
카카오 | 검색어를 입력 후 기간, 기기, 성별, 연령, 지역 등의 기준에서 살펴볼 수 있는 데이터 트렌드 서비스 출시 |
16. 주요 글로벌 기업의 빅데이터 기술 보유 현황을 설명하시오.
17. 주요 공공 분야별 빅데이터 현황을 설명하시오.
18. 책에서 다루지 않은 빅데이터 활용 사례를 찾아보시오.
'Study_exam > 빅데이터 컴퓨팅 기술 연습문제' 카테고리의 다른 글
빅데이터 컴퓨팅 기술 연습문제 6장 (0) | 2023.06.15 |
---|---|
빅데이터 컴퓨팅 기술 연습문제 5장 (1) | 2023.06.15 |
빅데이터 컴퓨팅 기술 연습문제 4장 (0) | 2023.04.18 |
빅데이터 컴퓨팅 기술 연습문제 3장 (0) | 2023.04.18 |
빅데이터 컴퓨팅 기술 연습문제 2장 (0) | 2023.04.18 |