트러블 슈팅/인프라

개요 프로젝트 내에서 A EventBridge에서 prod-sagemaker-notebook-rule이라는 규칙 참조를 제거하려고 하였으나, 해당 규칙에 아직 타겟이 연결되어 있어서 삭제할 수 없다는 것을 의미한다. 원인 AWS는 EventBridge 규칙을 삭제하기 전에 해당 규칙에 연결된 모든 타겟을 먼저 제거해야 한다. 현재 규칙에 타겟이 남아있어 삭제가 불가능한 상태인 것이다. deleting EventBridge Rule (prod-sagemaker-notebook-rule): operation error EventBridge: DeleteRule, https response error StatusCode: 400, RequestID: d7114e9a-9cef-404e-8489-19ec5f761..
개요 Trino를 사용하는 어플리케이션에서 아래와 같은 에러가 발생하였다./tmp/trino-s3-13154018856034091017.tmp: Read-only file system; nested exception is java.sql.SQLException해당 장애의 트러블 슈팅 방안을 살펴보자.  내용/tmp 디렉토리는 무엇인가?Trino를 쿠버네티스 환경에 클러스터로 배포하기 위해서 이 레포지토리의 helm 차트를 사용하고 있다. GitHub - joshuarobinson/trino-on-k8s: Setup for running Trino with Hive Metastore on KubernetesSetup for running Trino with Hive Metastore on Kubernete..
상황 로그 스테이시의 Lag이 갑자기 선형적으로 증가하고, Kibana에서 ES 데이터가 조회가 안되는 상황.  원인[INFO ][logstash.outputs.elasticsearch][main][e38dddd91e7fd542db9b636944e2d369cbc7ce18c8d0a46ff86880f6be7cfd2b] retrying failed action with response code: 429 ({"type"=>"cluster_block_exception", "reason"=>"index [log-2024-10-05] blocked by: [TOO_MANY_REQUESTS/12/disk usage exceeded flood-stage watermark, index has read-only-allow-..
문제 상황 요약쿠버네티스 워커 노드 중 하나가 장애로 인해 죽었지만, 회복 후 해당 노드에 있던 레디스 클러스터 노드도 함께 복구되었다. 그러나 레디스를 사용하는 어플리케이션에서 간헐적으로 타임아웃 에러가 발생하였다. 원인 분석복구된 레디스 노드 중 하나가 자신의 IP를 이전 IP로 인식하고 있었다. 이를 '금쪽이 노드'라고 하자.레디스 클라이언트는 클러스터 노드 중 하나에게 목적지를 질의하면 모든 노드는 full-mesh 구조로 되어 있으므로 질의에 대한 응답을 해줄 수 있다. 간헐적인 타임아웃의 원인은 다음과 같다클라이언트가 금쪽이 노드에게 목적지 질의를 함.금쪽이 노드가 자신을 잘못된 IP로 인식하고 있어, 클라이언트에게 잘못된 IP를 응답함.즉, 금쪽이 노드에게 자신의 이름을 물었더니 잘못된 이름..