Nangman Infra
INC-20260503-NPM-001SEV-1Resolved

NPM 업데이트 중 Teleport 및 프록시 서비스 유실

서울/대전 Nginx Proxy Manager 업데이트 중 docker compose down 실행 직후 프록시 컨테이너가 중단되며 하위 웹 서비스와 Teleport 원격 관리 경로가 함께 유실되었습니다. 기본 SSH 경로로 우회 접속한 뒤 docker compose up -d를 실행해 NPM 컨테이너와 Teleport 접근을 복구했습니다.

Period

2026-05-03 16:40 KST

2026-05-03 17:00 KST

Impacted Service

서울 및 대전 NPM 하위 프록시 웹 서비스, Teleport 원격 관리 콘솔

Owner

리포터: 운영 기록 기준 미확인 / 작업자: 운영 기록 기준 미확인

Technical Impact

NPM이 외부 HTTPS 프록시와 Teleport 진입점 역할을 동시에 담당하고 있어, NPM 컨테이너 중단 직후 서울/대전 하위 프록시 서비스와 Teleport 세션이 약 20분 동안 접근 불가 상태가 되었습니다.

Service Topology

  • - Client -> HTTPS 443 -> Nginx Proxy Manager (Seoul/Daejeon)
  • - Nginx Proxy Manager -> 하위 프록시 웹 서비스
  • - Operator -> Teleport Web/Proxy -> Nginx Proxy Manager 경유 관리 경로
  • - Emergency Operator -> SSH 22 -> 대상 서버 직접 접속

Root Cause

docker compose down으로 NPM 컨테이너와 관련 네트워크가 중지/제거되면서 프록시 경로가 사라졌고, Teleport 진입점도 해당 NPM 경로에 의존하고 있어 운영자가 후속 up 명령을 실행할 원격 관리 세션까지 동시에 잃었습니다.

Contributing Factors

  • - Teleport 원격 관리 경로가 NPM 프록시 컨테이너에 의존하는 구조였으나 작업 전 의존성 점검이 부족했음
  • - 운영 진입점 역할을 하는 NPM에 docker compose down 명령을 사용해 프록시 공백기를 직접 발생시킴
  • - 작업 전 독립 SSH 우회 경로와 방화벽/ACG 허용 상태를 명시적으로 확인하는 체크리스트가 없었음
  • - 서울/대전 하위 프록시 서비스와 관리 콘솔 영향 범위를 분리해 검증하는 변경 관리 절차가 부족했음

Evidence

  • - 2026-05-03 16:40 KST docker compose down 실행 직후 원격 터미널 및 Teleport 세션 Disconnect 발생
  • - 기본 SSH 포트와 외부 방화벽/ACG 허용 정책은 유지되어 있어 직접 SSH 우회 접속 성공
  • - docker compose up -d 실행 후 NPM 하위 프록시 웹 서비스 및 Teleport 세션 복구 확인
  • - Docker Compose 공식 문서 기준 down은 up으로 생성된 컨테이너와 네트워크를 중지 및 제거하는 명령
  • - 사용자 제공 정부통합전산센터 장애등급 산정 기준 PDF를 참고해 P1/SEV-1로 분류

Timeline

  • - 2026-05-03 16:35 | 서울/대전 서버 NPM 최신 상태 업데이트 작업 시작
  • - 2026-05-03 16:37 | 대상 서버 접속 후 /home/seongwon/nginx-proxy-manager/ 이동
  • - 2026-05-03 16:38 | docker compose pull 수행 완료
  • - 2026-05-03 16:40 | docker compose down 실행 직후 원격 터미널 및 Teleport 세션 끊김
  • - 2026-05-03 16:47 | Teleport 인증/Proxy 경로가 NPM 컨테이너에 의존하고 있음을 확인
  • - 2026-05-03 16:47 | 기본 SSH 경로를 통한 우회 복구 요청 및 접속 절차 진행
  • - 2026-05-03 17:00 | 내부 터미널에서 NPM 컨테이너 복구 및 Teleport 연결 재개 확인

Resolution

  • - Teleport 경로는 차단되었지만 기본 SSH 포트와 외부 방화벽/ACG 허용 정책은 유지되어 있음을 확인
  • - 일반 SSH 프로토콜로 서버에 직접 우회 접속
  • - /home/seongwon/nginx-proxy-manager/ 디렉토리에서 docker compose up -d 실행
  • - NPM 프록시 컨테이너 재구동 및 요청된 최신 이미지 업데이트 반영
  • - 하위 프록시 웹 서비스와 Teleport 세션 복구 확인

Standard Update Impact Review and Notice Policy

Scope: NPM, Teleport, 인증, VPN 등 운영 진입점 또는 원격 관리 경로에 영향을 줄 수 있는 표준 업데이트 작업

  • - 표준 업데이트 작업 전 영향 대상 서비스와 관리 경로를 사전 식별
  • - NPM 하위 프록시 서비스와 Teleport 의존성에 대한 영향도 확인
  • - 영향 가능성이 있는 사용자 또는 운영자에게 작업 시간과 예상 영향 사전 공지
  • - 작업 전 독립 SSH 우회 경로와 방화벽/ACG 허용 상태 확인
  • - 작업 후 하위 프록시 웹 서비스와 Teleport 세션을 각각 검증
  • - 작업 결과와 실제 영향 범위를 운영 기록에 남김

Exit Criteria: 표준 업데이트 작업 전 영향도 확인과 사전 공지가 완료되고, 작업 후 서비스/Teleport 검증 증적이 모두 남아야 작업 종료

Tags

#incident#sev-1#npm#nginx-proxy-manager#teleport#docker-compose#ingress#runbook