docs: améliorer rendu markdown et navigation mkdocs

- Ajouter ADR-018 (librairies Go) dans TECHNICAL.md - Transformer Shared en menu dépliable dans mkdocs (cohérence avec autres domaines) - Corriger listes markdown (ajout lignes vides avant listes) - Corriger line breaks dans génération BDD (étapes "Et" sur nouvelles lignes) - Ajouter script fix-markdown-lists.sh pour corrections futures Impacte 86 fichiers de documentation et 164 fichiers BDD générés.
2026-02-09 20:49:52 +01:00
parent 95c65b8be1
commit 35aaa105d0
87 changed files with 1044 additions and 91 deletions
--- a/docs/adr/024-monitoring-observabilite.md
+++ b/docs/adr/024-monitoring-observabilite.md
@@ -6,6 +6,7 @@
 ## Contexte

 RoadWave nécessite un système de monitoring pour garantir la disponibilité cible 99.9% (SLO) définie dans  :
+
 - **Métriques** : latency p99 < 100ms, throughput API, erreurs
 - **Alerting** : détection pannes, dégradations performance
 - **Incident response** : runbooks, escalation, post-mortems
@@ -93,16 +94,19 @@ graph TB
 ### Métriques Clés

 **API Performance** (requêtes PromQL) :
+
 - Latency p99 : histogramme quantile 99e percentile sur durée requêtes HTTP (fenêtre 5 min)
 - Error rate : ratio requêtes 5xx / total requêtes (fenêtre 5 min)
 - Throughput : taux de requêtes par seconde (fenêtre 5 min)

 **Infrastructure** :
+
 - CPU usage : taux utilisation CPU (mode non-idle, fenêtre 5 min)
 - Memory usage : ratio mémoire disponible / totale
 - Disk I/O : temps I/O disque (fenêtre 5 min)

 **Business** (compteurs custom) :
+
 - Active users (DAU) : `roadwave_active_users_total`
 - Audio streams actifs : `roadwave_hls_streams_active`
 - Signalements modération : `roadwave_moderation_reports_total`
@@ -182,6 +186,7 @@ graph TB
 ### Dashboards Grafana

 **Dashboard principal** :
+
 - Latency p50/p95/p99 API (5 min, 1h, 24h)
 - Error rate 5xx/4xx (seuil alerte >1%)
 - Throughput requests/sec
@@ -189,12 +194,14 @@ graph TB
 - Business : DAU, streams actifs, signalements modération

 **Dashboard PostgreSQL** :
+
 - Slow queries (>100ms)
 - Connections actives vs max
 - Cache hit ratio (cible >95%)
 - Deadlocks count

 **Dashboard Redis** :
+
 - Memory usage
 - Evictions count
 - Commands/sec
@@ -203,27 +210,32 @@ graph TB
 ### Alerting Rules

 **Alertes critiques** (Telegram + Email immédiat) :
+
 - **API Down** : Job API indisponible pendant >1 min → Notification immédiate
 - **High Error Rate** : Taux erreurs 5xx >1% pendant >5 min → Notification immédiate
 - **Database Down** : PostgreSQL indisponible pendant >1 min → Notification immédiate

 **Alertes warnings** (Email uniquement) :
+
 - **High Latency** : Latency p99 >100ms pendant >10 min → Investigation requise
 - **Disk Space Running Out** : Espace disque <10% pendant >30 min → Nettoyage requis

 ### Backup & Disaster Recovery

 **PostgreSQL WAL-E** :
+
 - Méthode : Backup continu Write-Ahead Log (WAL)
 - Rétention : 7 jours full + WAL incrémentaux
 - Stockage : S3 OVH région GRA (France)
 - Chiffrement : AES-256 server-side

 **RTO (Recovery Time Objective)** : 1h
+
 - Restore depuis S3 : ~30 min (DB 10 GB)
 - Validation + relance services : ~30 min

 **RPO (Recovery Point Objective)** : 15 min
+
 - Fréquence archivage WAL : toutes les 15 min
 - Perte maximale : 15 min de transactions