안단테 안단테

시퀀스 파일 본문

IT 기술/BigData

시퀀스 파일

안단테에 2023. 2. 2. 19:11
728x90
반응형

시퀀스 파일은 하둡에서 제공하는 압축 포맷을 이용해 압축된 바이너리 파일을 말하는데요. 맵리듀스에서 출력 포맷을 시퀀스파일로 설정하면, 맵리듀스 출력 데이터를 시퀀스 파일로 만들어 줍니다. 시퀀스 파일이 생성되면 index와 data라는 두개의 파일이 생성되는데, data에는 압축된 데이터 내용이 바이너리로 기록되고, index에는 data의 시퀀스 즉 인덱스 정보가 기록됩니다. 참고로 시퀀스 파일은 "./bin/hadoop fs -text 시퀀스파일폴더"를 하시면 디코딩한 내용을 볼 수 있고요.텍스트로 보관하는 것보다는 압축된해서 보관하는 게 용량이 작으니까 실무에서 활용하면 좋을 것이라 생각됩니다.

728x90
반응형
Comments