Root Cause (log-belegt, 36,6-min-Lücke 15:25–16:01): watch_subagents ist ein Polling-Tool; die Überwachung lebt nur solange das LLM es neu aufruft. Eine User-Zwischenfrage riss die Schleife ab, der Orchestrator ging idle. Der passive Alert-File-Pfad (nur in before_agent_start gelesen) feuert bei idle nie → Orchestrator schlief 36 min bis der Mensch tippte. Fix: 30s-Check erkennt laufende Subagenten per Prozessbaum (lebt ein pi-Kind unter dem tmux-Pane?), nicht per Keyword. Idle + laufender Subagent → aktive Weckung via pi.sendUserMessage() (löst garantiert einen Turn aus) + ui.notify. Idle-Erkennung zeitbasiert (45s, > 30s Pollintervall), ctx-unabhängig. Verifiziert: Syntax, Modul-Load, Handler-Registrierung, Prompt-Injection, W06, Prozessbaum-Erkennung an echten Sessions. NICHT verifiziert: Live-Weckpfad (erfordert Orchestrator-Test). Plan: doku/fix-plan-orchestrator-wecker-v2026-06-02-18-19.md
7.6 KiB
Fix-Plan: Orchestrator wacht nicht auf, wenn Subagent auf Bestätigung wartet
Version: v2026-06-02-18-19
Status: Plan — Umsetzung in derselben Session direkt im Anschluss
Betroffene Datei: extensions/rule-enforcer.ts (Repo) → deployed nach ~/.pi/agent/extensions/rule-enforcer.ts
1. Vorfall (log-belegt)
Quelle: Orchestrator-Session-Log
~/.pi/agent/sessions/--media-xray-NEU-Code-20260602-locosoft-recherche--/2026-06-02T14-29-08-398Z_019e88bd-...jsonl
15:21–15:24 watch_subagents-Schleife läuft sauber (alle ~30s ein toolResult,
Orchestrator ruft watch_subagents jedes Mal neu auf). ✅
15:24:27 USER unterbricht mit neuer Anfrage.
15:25:00 Orchestrator startet Subagent lexware-arbeitsamt, schreibt Text
"SubAgent lexware-arbeitsamt läuft:…" → TURN ENDET, Orchestrator idle.
── 36,6 min KEIN watch_subagents, KEINE Aktivität ──
16:01:33 USER tippt → Orchestrator wacht auf.
Subagent-Log (…lexware-arbeitsamt…jsonl): letzter Eintrag 16:00:51 assistant OHNE
folgendes toolResult = blockierender Bestätigungs-Dialog (Tool-Call gestellt, confirm-Dialog
offen, Tool nie ausgeführt).
2. Root Cause (bewiesen)
watch_subagents ist ein Polling-Tool, das nach ~30s zurückkehrt. Die „Dauerüberwachung"
existiert nur, solange das LLM es immer wieder selbst neu aufruft.
Um 15:24:27 hat die User-Zwischenfrage die Kette unterbrochen. Der Orchestrator beantwortete sie, kündigte um 15:25:00 den Subagenten an — und re-armte die watch_subagents-Schleife nicht. Der Turn endete mit einem Text → Orchestrator idle → Schleife für immer tot, bis ein externer Trigger (der Mensch) kam.
Das setInterval(30s) der Extension lief weiter und schrieb in die Alert-Datei
/tmp/.pi-subagent-alert. Aber die Datei wird nur in before_agent_start gelesen
(rule-enforcer.ts:196), und before_agent_start feuert nur bei Turn-Start. Kein Turn →
Alert nie gelesen. Der passive Datei-Mechanismus kann einen idle Orchestrator strukturell
nicht aufwecken.
3. Zwei unterschiedliche Lücken (wichtig fürs Design)
| Lücke | Zeitraum | Zustand | Bisher erkannt? |
|---|---|---|---|
| B — verwaiste Überwachung | 15:25:00–16:00:51 (~35 min) | Subagent arbeitet, KEIN Dialog offen, Orchestrator idle | nein |
| A — offener Bestätigungs-Dialog | 16:00:51–16:01:33 (~40 s) | Subagent wartet auf „Erlauben?", Orchestrator idle | nur passiv (wirkungslos bei idle) |
4. Belegte API-Grundlage (Pi 0.78.0)
~/.pi/.../dist/core/extensions/types.d.ts:
- Z. 843:
pi.sendUserMessage(content, opts?)— „Send a user message to the agent. Always triggers a turn. When the agent is streaming, use deliverAs to specify how to queue." - Z. 835:
pi.sendMessage(msg, {triggerTurn?, deliverAs?}) - Z. 221:
ctx.isIdle()— „Whether the agent is idle (not streaming)" (nur in Event-Handlern viactx, nicht aufpiselbst → muss aus einem Handler in eine Closure-Variable übernommen werden) - Z. 75:
ctx.ui.notify(message, "warning")— sichtbare Meldung an den Menschen
5. Korrektur des Designs (Benutzer-Einwand, berechtigt)
Ursprünglich wollte ich nur den offenen Dialog (Trigger A) abfangen und „Subagent läuft, Orchestrator idle" auf später verschieben. Falsch. Die korrekte Invariante ist:
Solange mindestens ein Subagent läuft, darf der Orchestrator nicht idle sein.
„Idle Orchestrator + laufender Subagent" ist kein tolerierbarer Zustand, sondern der Bug selbst
— und genau das war heute 35 min lang der Fall, bevor überhaupt ein Dialog aufkam. Der
offene Dialog ist nur ein Spezialfall: ein wartender Subagent ist ein noch lebender
pi-Prozess; die Prozess-Erkennung erfasst ihn ohnehin.
Zuverlässige „läuft ein Subagent?"-Erkennung (empirisch verifiziert 2026-06-02 18:2x)
pane_current_command ist unbrauchbar — meldet bash, obwohl Pi läuft (Pi ist Kindprozess
der bash -c "… GlmPi …"). Verifizierte Methode = Prozessbaum:
für jede tmux-Session mit pane_current_path unter /home/xray/.pi/subagents/:
pane_pid holen → hat sie ein Kind mit comm == "pi"? → Subagent läuft.
Test an 2 echten Sessions: beide korrekt als „läuft" erkannt (pi-Kind 12335/13687). Fertige
Session (bash auf read, kein pi-Kind) → korrekt „läuft nicht". Kein Keyword-Matching.
6. Fix — diese Session (invarianten-basiert)
Der 30s-Check:
laufendeSubagenten()per Prozessbaum bestimmen. Keiner → nichts tun (idle ist erlaubt).- Alert-Datei schreiben (passiver Pfad — greift, wenn der Orchestrator gerade in einem Turn ist).
- Idle-Erkennung (ctx-unabhängig): Aktivitäts-Zeitstempel
letzteAktivitaetwird in message_start/update/end, tool_execution_, turn_ aktualisiert. Idle = seitIDLE_SCHWELLE_MS(45 s) kein Event. (45 s > 30 s watch_subagents-Pollintervall ⇒ keine Fehlweckung während aktiver Überwachung.) Zusätzlich: wennletzterCtx.isIdle() === false→ definitiv beschäftigt, nicht wecken. - Idle und Subagent läuft → aktiv wecken:
pi.sendUserMessage(…)(löst garantiert einen Turn aus) +letzterCtx.ui.notify(…)für den Menschen. Dialog-Inhalt reichert die Meldung an.
Eigenschaften:
- Bias zum Wecken: verpasster Wecker = teuer (heute 35 min), überflüssiger = nur kurz lästig.
- Spam-Schutz: höchstens 1 aktive Weckung pro
WECK_MIN_ABSTAND_MS(60 s). - Selbstterminierend: Hält der Orchestrator nach der Weckung seine watch_subagents-Schleife, bleibt er non-idle → keine weiteren Weckungen. Erst wenn alle Subagenten fertig sind, endet die Überwachung regulär.
- ctx-Robustheit: Idle wird primär zeitbasiert erkannt, nicht über ein evtl. veraltetes
ctx-Objekt.isIdle()dient nur als zusätzliches „beschäftigt"-Veto.
Bekannter Trade-off (ehrlich)
Hält der Orchestrator die Schleife trotz Weckung wiederholt nicht, wird er ~1×/60 s erneut geweckt, solange der Subagent läuft. Das bläht den Kontext (je eine User-Nachricht pro Weckung). Im Normalfall (Orchestrator nimmt die Schleife nach 1. Weckung wieder auf) bleibt es bei einer Weckung. Responsivität wird höher gewichtet als Kontext-Sparsamkeit — bewusst.
7. Rollback
Vor der Änderung: Git-Commit des Ist-Stands (Repo) + Backup der deployten Datei.
# Repo zurück:
git checkout HEAD -- extensions/rule-enforcer.ts
# Deploy zurück (Backup wird vom install-Schritt mit Timestamp angelegt):
cp ~/.pi/agent/extensions/rule-enforcer.ts.bak-<ts> ~/.pi/agent/extensions/rule-enforcer.ts
# Wirksam nach Pi-Neustart bzw. /reload.
8. Erwartetes Verhalten & Live-Test (durch Benutzer)
Erwartung: Orchestrator ist idle, ein Subagent zeigt „Erlauben?". Innerhalb von ≤30 s
erscheint im Orchestrator eine Auto-Weckung (sichtbare notify + neuer Turn), der Orchestrator
ruft watch_subagents und reagiert auf den Dialog — ohne dass der Mensch tippen muss.
Testszenario (nur mit echtem Orchestrator+Subagent valide):
- Pi-Orchestrator neu starten (lädt geänderte Extension) bzw.
/reload. - Subagent starten, der einen Bestätigungs-Dialog auslöst (z. B. eine Aktion, die
confirm-deletion.tstriggert). - Orchestrator nicht anfassen, idle lassen.
- Beobachten: Kommt innerhalb ~30–60 s eine Auto-Weckung und reagiert der Orchestrator?
Ehrlich markiert: Ob pi.sendUserMessage() aus einem setInterval heraus in der
laufenden Pi-Version genau dieses Verhalten zeigt, ist durch die Typdefinition belegt, aber
noch nicht in einem Live-Lauf bestätigt. Erst der Test in Schritt 1–4 verifiziert den Fix.
Bis dahin gilt der Fix als „implementiert, nicht verifiziert".