안단테 안단테

12. HBase 요구사항 본문

IT 기술/BigData

12. HBase 요구사항

안단테에 2023. 2. 3. 15:33
728x90
반응형

12. HBase 요구사항

 

2.2 요구사항

 

2.2.1 하드웨어 요구사항

 

HBase는 범용하드웨어라 다양한 하드웨어에서 실행가능

Hadoop과 연계해야 네트워크 I/O를 현저히 줄이고 처리속도를 향상시킴

 

- 서버

Master (HDFS namenode, Mapreduce JobTracker, Hbase Master) -> 안전하게

slave (HDFS datanode, MapReduce TaskTracker, HBase RegionServer) -> 용량크게

 

- CPU

일반적으로 멀티코어 프로세서 사용

CPU에 관한 한 마스터와 슬레이브 장치의 사양은 동일하게 구성해야 한다

 

- 메모리

메모리를 필요한 만큼만 사용하기

램을 서버와 메모리 대역폭에 최적화할 것을 권장

 

- 디스크 

데이터는 슬레이브 장치에 저장되므로 많은 공간을 필요로 하는 장치는 슬레이브

CPU코어수와 디스크 수의 균형을 맞춰야 한다

 

- 섀시 Chassis

슬레이브 서버에는 전원 공급 장치 하나로 충분하지만 마스터 노드에서는 예비장치를 두어야 하는데 많은 서버에서 사용할 수 있는 선택적 듀얼 공급 장치가 있음

 

- 네트워크

일반적인 전체 클러스터는 자신만의 네트워크 안에 위치시켜 방화벽으로 보호하고 클라이언트에서 필요한 포트 관리

 

2.2.2 소프트웨어 요구사항

 

- 운영체제

1. Cent OS : 레드헷 엔터프라이즈 리눅스를 기반으로 하여 자체 커뮤니티가 지원하는 무료 운영체제

      패키지를 RAM 형식으로 제공

 

2. 페도라 : 커뮤니티를 지원받는 무료이자 오픈소스 운영체제 이며, 레드헷 수원

    신기술 도입에 적극적, 그러나 유지 보수 시간이 짧다.

 

3. 데비안 : 무료..! 전적으로 프로젝트 자체 규칙에 의해 관리

    수 많은 하드웨어 플랫폼에서 사용가능

 

4. 우분투 : 데비안을 기반으로 하는 리눅스. 무료.. 커노니킬사 후원

 

5. 솔라리스 : 오라클에서 제공하여, 탑재할 수 있는 아키텍처 플랫폼이 제한적

 

6. 레드헷 엔터프라이즈 리눅스 : 각종 상업적 지원과 유지보수 제공

 

- 파일 시스템

1. ext3 : 리눅스 OS에서 가장 널리 사용되는 FS

안정적이고 신뢰도가 높기 때문에 안전하게 클러스터를 구축할 수 있음

FS를 마운팅 할 때 noatime 옵션을 사용하여 커널이 파일에 접근할 때마다 시간을 기록하는 관리상의 부담을 줄이도록 한다

서버 초기화 괒어에서 가장 많은 시간을 소모

 

2. ext4 : 리눅스 커널의 일부로 공식 편입

ext3 성능을 능가하여 고성능을 자랑하는 XFS에 근접

 

3. XFS : 서버 초기화 과정에서 전체 드라이브를 포맷하는 데 드는 시간이 거의 없다

설계상 수많은 파일을 한꺼번에 삭제할때 메타데이터 연산이 취약하다

 

4. ZFS : 258제타바이트 데이터 저장가능

 

- 자바

1.6 버전 이후꺼 사용하면 됨

 

- 하둡

HBase는 하둡에 의존성을 가지므로 하둡 JAR을 lib 디렉토리에 탑재

 

- SSH

Hadoop및 HBase 데몬을 원격으로 관리하는 스크립트를 사용하려면 ssh가 설치되어 있고 sshd가 실행되고 있어야 된다.

 

- DNS

HBase는 스스로의 IP주소를 확인하기 위해 호스트명을 사용, 순방향 및 역방향 DNS 탐색이 가능해야됨

 

- 동기화 시간

클러스터 노드에 탑재된 시계는 기본 조정이 되어 있는 상태

 

- 파일 핸들 및 프로세스 제한

HBase는 DB이므로 동시에 수많은 파일을 사용

 

- 데이터 노드 핸들러

HDFS 데이터 노드에는 동시에 처리할 파일 수의 상한이 있다  Xciever로..

 

- 스와피니스

서버는 언제나 메모리가 고갈되지 않게 해야한다

메모리의 한계에 근접하면 OS는 설정된 스왑 공간을 사용

 

  스왑 공간 : 보통 자체 파티션을 가지고 디스크에 위치. 프로세스와 할당된 메모리 페이지를 보관하고 있어야 재사용

 

서버가 스와핑을 하게되면 속도가 현저히 줄어든다

HBase를 운용하려면 일정 수준의 CPU사이클과 프레시니스가 보장되어야 한다

 

- 윈도우

HBase를 윈도우에 탑재하는 일은 권장하지 않는다.

셀 스크립트를 실행할 수 있도록 시그윈(cygwin)을 설치하여 유닉스와 같은 환경ㅇ르 구축해야 한다.

 

2.3 HBase를 위한 파일시스템

 

Hbase와 함게 사용되는 가장 일반적인 파일시스템은 HDFS이다

HDFS는 안정성 및 신뢰성이 증명됨..

HDFS의 인기비결은 내장된 리플리케이션(복제), 결함 허용성, 확장성이 특징

 

2.3.1 로컬 파일 시스템

 

로컬 파일 시스템은 실제로 하둡을 통째로 우회한다.

즉 HDFS나 기타 클러스터가 전혀 필요없다.

로컬 파일 시스템 관련 작업은 FIleSystem class에서 처리. HBase에서 파일 시스템 구현체에 접근하기 위해 사용

 

2.3.2 하둡 파일 시스템

 

완전히 분산된 클러스터를 구성할 때 기본적으로 설정된 파일 시스템은 HDFS이다

HBase는 파일시스템에서 제공해야 하는 모든 기능을 탑재하고 있기 때문에 HDFS를 채택

 

2.3.3 S3

 

아마존의 단순 저장 서비스는 주로 아모존의 보조 서비스인 탄력적 컴퓨터 클라우드 상의 동적서버와 조합하여 사용되는 저장 시스템

S3는 EC2 없이 사용가능하지만 I/O 데이터 전송 대욕폭..... 비싸다

 

2.5 실행방식

 

conf/hbase-env.sh에서 어떤 java를 사용할지 지정해줌

분산방식으로 실행되는 HBase는 주키퍼 클러스터에 의존

클러스터를 구성하는 모든 노드와 클라이언트는 가동 중인 주키퍼 클러스터에 접근할 수 있어야 한다.

주키퍼는 장치 수가 많을 수록 조장에 대한 허용성 강화

 

2.6 설정

서버는 hbase-default.xml  파일을 먼저 읽은 다음 hbase-site.xml 파일이 있으면 내용 병합

728x90
반응형

'IT 기술 > BigData' 카테고리의 다른 글

14. 클라이언트 API: 고급기능  (0) 2023.02.06
13. HBase 클라이언트 API  (0) 2023.02.06
11. HBase 소개 - 4  (0) 2023.02.03
10. HBase 소개 - 3  (1) 2023.02.03
9. HBase 소개 - 2  (0) 2023.02.03
Comments