글로벌 가상자산 거래소 바이낸스는 자체 개발한 ‘스몰 파일 닥터(Small File Doctor)’ 프레임워크를 통해 대규모 데이터 처리 과정에서 발생하는 비효율을 개선하고 시스템 안정성을 확보했다고 16일 밝혔다.
대규모 데이터 웨어하우스 환경에서 스몰 파일은 단순한 저장 구조 문제를 넘어 메타데이터 처리 부담 증가, 읽기 증폭, 지연 시간 악화, 작업 불안정성 등으로 이어질 수 있다. 특히 거래, 모니터링, 이상 거래 탐지, 분석, 고객 지원, 재무 등 다양한 워크플로우가 동시에 작동하는 바이낸스와 같은 환경에서는 서비스 품질과 사용자 경험에 직접적인 영향을 미치는 요인으로 작용한다.
바이낸스는 이러한 문제를 임시 스크립트나 수동 정리가 아닌 상시 운영이 가능한 구조로 해결하는 데 초점을 맞췄다. 일반 운영 환경에서도 파일 최적화 작업을 안전하게 지속 실행할 수 있도록 프레임워크를 설계해 지연 시간, 안정성, 비용 효율을 전반적으로 개선했다는 설명이다.
스몰 파일 닥터는 S3, HDFS 등 스토리지 메타데이터를 분석해 파일 수와 크기 분포를 파악한 뒤, 스몰 파일이 과도하게 누적된 디렉터리를 선별한다. 이후 데이터 소비 패턴을 기준으로 최적화 우선순위를 정하고, 대상 테이블과 파티션을 최적화 백로그에 기록한다. 병합 여부는 실제 파일 수와 평균 파일 크기를 기준 목표 파일 크기(256MB)와 비교해 결정되며, 효과가 제한적인 반복 작업을 방지하기 위한 안전 규칙도 함께 적용된다.
운영 안정성을 고려한 가이드도 마련됐다. 파일 최적화 작업은 클러스터 과부하를 막기 위해 동시 실행 수를 제한하고, 오프피크 시간대에 수행된다. 또한 테이블·파티션별 전후 파일 수, 실행 시점, 상태를 거버넌스 로그로 관리해 작업이 중단되더라도 중복 처리 없이 이어서 재개할 수 있도록 설계됐다.
바이낸스는 해당 프레임워크를 통해 현재까지 533개 테이블을 최적화했으며, 약 5900만 개에 달하던 스몰 파일을 290만 개 수준으로 줄였다. 이를 통해 연간 약 9만~10만 달러 규모의 컴퓨트 및 스토리지 비용을 절감한 것으로 나타났다.
향후 바이낸스는 스몰 파일 닥터를 스케줄러와 통합해, 파티션 생성 이후 병합과 검증 등 최적화 작업이 완료된 뒤에만 데이터 접근이 가능하도록 구조를 고도화할 계획이다.
바이낸스 관계자는 “스몰 파일 닥터는 데이터 규모와 서비스 복잡성이 커지는 환경에서도 시스템 안정성을 유지하는 핵심 역할을 하고 있다”라며 “지속적인 프레임워크 고도화를 통해 ‘보이지 않는 병목’을 유발하는 스몰 파일 문제를 근본적으로 해결해 나가겠다”라고 말했다.









