gHashTag
diff --git a/‎EXPERIENCE_LOG.md‎
Lines changed: 8 additions & 0 deletions b/‎EXPERIENCE_LOG.md‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎src/cli/entrypoint_train.zig‎
Lines changed: 31 additions & 0 deletions b/‎src/cli/entrypoint_train.zig‎
Lines changed: 31 additions & 0 deletions
@@ -206,3 +206,11 @@ Structured knowledge base for HSLM training. Every significant event gets an ent
 **Context**: grad_clip=1.0 analysis across all code paths.
 **Outcome**: clip=1.0 is hardcoded default in trainer.zig, cli.zig, entrypoint_train.zig, tri_farm.zig. Applied per-parameter via clipGradNorm on 8 tensors (q/k/v/o, shadow_up/down, output_shadow/bias).
 **Lesson**: Clip is always on. It prevents catastrophic spikes but doesn't fix wrong optimizer/LR config. The 90x PPL difference (265 vs 2.96) is optimizer/LR, not clip.
+
+### EXP-025 | FAILURE | 2026-03-15 | training
+**Impact**: CRITICAL
+**Context**: 72 W7 farm workers (FARM-4/5/6) ALL killed by aggressive early termination. Hardcoded thresholds: `step >= 10K && PPL > 200 → kill`, `step >= 30K && PPL > 50 → kill`. Thresholds calibrated to outlier seeds (R5/R23v2 PPL ~3 at 32K), not median convergence (PPL 50-112 at 30K). Local v13 proof: PPL 151 @ 30K → 73 @ 60K — healthy convergence killed prematurely.
+**Outcome**: All 72 runs wasted. Zero data collected beyond 30K steps. Equivalent to ~2160 GPU-hours lost.
+**Fix**: Relaxed defaults (10K→500, 30K→200, 60K→100, 80K→50) + 4 configurable stages via `--kill-ppl-*` flags and `HSLM_KILL_PPL_*` env vars. Added force-save at 32K (historical PPL minimum), checkpoint_best keeper (always saves best PPL), detailed kill logging (step/ppl/threshold/seed).
+**Lesson**: Never calibrate kill thresholds to best-case seeds. Use median convergence curve + 2x safety margin. v13 proof: PPL 73@60K would be killed by threshold 50 but survives with 100. Make thresholds configurable via env vars so farm operators can tune per-experiment.
+**Prevention**: Always validate new thresholds against ALL known runs (v13, W5-19, R18, R5, typical seed, bad seed) before deploying.
@@ -45,6 +45,9 @@ const TrainConfig = struct {
     adaptive_sparsity: bool = false,
     ternary_schedule: bool = false,
 
+    // T-JEPA objective
+    objective: []const u8 = "ntp", // ntp | jepa | hybrid
+
     // Data sharding (T10)
     data_shard: []const u8 = "0",
     num_shards: []const u8 = "1",
@@ -55,6 +58,12 @@ const TrainConfig = struct {
 
     // Gradient clipping
     grad_clip: []const u8 = "1.0",
+
+    // Early kill thresholds (EXP-025: relaxed to match median convergence)
+    kill_ppl_10k: []const u8 = "500",
+    kill_ppl_30k: []const u8 = "200",
+    kill_ppl_60k: []const u8 = "100",
+    kill_ppl_80k: []const u8 = "50",
 };
 
 fn envStr(key: []const u8, default: []const u8) []const u8 {
@@ -97,6 +106,9 @@ fn readConfig() TrainConfig {
         .adaptive_sparsity = envBool("HSLM_ADAPTIVE_SPARSITY", false),
         .ternary_schedule = envBool("HSLM_TERNARY_SCHEDULE", false),
 
+        // T-JEPA objective
+        .objective = envStr("HSLM_OBJECTIVE", "ntp"),
+
         // Data sharding
         .data_shard = envStr("HSLM_DATA_SHARD", "0"),
         .num_shards = envStr("HSLM_NUM_SHARDS", "1"),
@@ -105,6 +117,12 @@ fn readConfig() TrainConfig {
         // Validation split
         .val_split = envStr("HSLM_VAL_SPLIT", "0.1"),
         .grad_clip = envStr("HSLM_GRAD_CLIP", "1.0"),
+
+        // Early kill thresholds
+        .kill_ppl_10k = envStr("HSLM_KILL_PPL_10K", "500"),
+        .kill_ppl_30k = envStr("HSLM_KILL_PPL_30K", "200"),
+        .kill_ppl_60k = envStr("HSLM_KILL_PPL_60K", "100"),
+        .kill_ppl_80k = envStr("HSLM_KILL_PPL_80K", "50"),
     };
 }
 
@@ -277,6 +295,10 @@ pub fn main() !void {
         .{ .flag = "--total-lines", .val = config.total_lines, .default = "15600056" },
         .{ .flag = "--val-split", .val = config.val_split, .default = "0.0" },
         .{ .flag = "--grad-clip", .val = config.grad_clip, .default = "1.0" },
+        .{ .flag = "--kill-ppl-10k", .val = config.kill_ppl_10k, .default = "500" },
+        .{ .flag = "--kill-ppl-30k", .val = config.kill_ppl_30k, .default = "200" },
+        .{ .flag = "--kill-ppl-60k", .val = config.kill_ppl_60k, .default = "100" },
+        .{ .flag = "--kill-ppl-80k", .val = config.kill_ppl_80k, .default = "50" },
     };
     for (optionals) |opt| {
         if (!std.mem.eql(u8, opt.val, opt.default)) {
@@ -368,6 +390,15 @@ pub fn main() !void {
         log.info("Zero initialization mode enabled", .{});
     }
 
+    // T-JEPA objective
+    if (!std.mem.eql(u8, config.objective, "ntp")) {
+        buf[argc] = "--objective";
+        argc += 1;
+        buf[argc] = config.objective;
+        argc += 1;
+        log.info("Objective: {s}", .{config.objective});
+    }
+
     const argv = buf[0..argc];
 
     // Log the full command