guosran
diff --git a/‎cgra/test/CgraRTL_fir_2x2_loop_counter_test.py‎
Lines changed: 702 additions & 0 deletions b/‎cgra/test/CgraRTL_fir_2x2_loop_counter_test.py‎
Lines changed: 702 additions & 0 deletions
diff --git a/‎controller/ControllerRTL.py‎
Lines changed: 9 additions & 1 deletion b/‎controller/ControllerRTL.py‎
Lines changed: 9 additions & 1 deletion
diff --git a/‎fu/single/ExtractPredicateRTL.py‎
Lines changed: 89 additions & 0 deletions b/‎fu/single/ExtractPredicateRTL.py‎
Lines changed: 89 additions & 0 deletions
diff --git a/‎fu/single/LoopCounterRTL.py‎
Lines changed: 1 addition & 1 deletion b/‎fu/single/LoopCounterRTL.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎fu/single/test/ExtractPredicateRTL_test.py‎
Lines changed: 186 additions & 0 deletions b/‎fu/single/test/ExtractPredicateRTL_test.py‎
Lines changed: 186 additions & 0 deletions
diff --git a/‎fu/single/test/LoopCounterRTL_test.py‎
Lines changed: 1 addition & 1 deletion b/‎fu/single/test/LoopCounterRTL_test.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/opt_type.py‎
Lines changed: 3 additions & 1 deletion b/‎lib/opt_type.py‎
Lines changed: 3 additions & 1 deletion
@@ -302,6 +302,11 @@ def update_received_msg():
                                0, # vc_id
                                s.recv_from_inter_cgra_noc.msg.payload)
 
+        # Consume and discard the leaf counter complete signal (loop termination
+        # notification from LoopCounter FU) to avoid blocking the NoC.
+        elif s.recv_from_inter_cgra_noc.msg.payload.cmd == CMD_LEAF_COUNTER_COMPLETE:
+          s.recv_from_inter_cgra_noc.rdy @= 1
+
         elif s.recv_from_inter_cgra_noc.msg.payload.cmd == CMD_GLOBAL_REDUCE_ADD:
           s.recv_from_inter_cgra_noc.rdy @= s.global_reduce_unit.recv_data.rdy
           s.global_reduce_unit.recv_data.val @= 1
@@ -327,7 +332,10 @@ def update_received_msg():
              (s.recv_from_inter_cgra_noc.msg.payload.cmd == CMD_RESUME) | \
              (s.recv_from_inter_cgra_noc.msg.payload.cmd == CMD_RECORD_PHI_ADDR) | \
              (s.recv_from_inter_cgra_noc.msg.payload.cmd == CMD_TERMINATE) | \
-             (s.recv_from_inter_cgra_noc.msg.payload.cmd == CMD_LAUNCH):
+             (s.recv_from_inter_cgra_noc.msg.payload.cmd == CMD_LAUNCH) | \
+             (s.recv_from_inter_cgra_noc.msg.payload.cmd == CMD_CONFIG_LOOP_LOWER) | \
+             (s.recv_from_inter_cgra_noc.msg.payload.cmd == CMD_CONFIG_LOOP_UPPER) | \
+             (s.recv_from_inter_cgra_noc.msg.payload.cmd == CMD_CONFIG_LOOP_STEP) :
           s.recv_from_inter_cgra_noc.rdy @= s.send_to_ctrl_ring_pkt.rdy
           s.send_to_ctrl_ring_pkt.val @= s.recv_from_inter_cgra_noc.val
           s.send_to_ctrl_ring_pkt.msg @= \
 
@@ -0,0 +1,89 @@
+"""
+==========================================================================
+ExtractPredicateRTL.py
+==========================================================================
+Functional Unit that extracts the predicate bit from input data and outputs
+it as a boolean result with payload = predicate_value, predicate = 1.
+
+This is used to extract loop termination signals from counter outputs.
+
+Author : Shangkun LI
+  Date : January 27, 2026
+
+"""
+
+from pymtl3 import *
+from ..basic.Fu import Fu
+from ...lib.opt_type import *
+
+class ExtractPredicateRTL(Fu):
+
+  def construct(s, DataType, CtrlType, num_inports,
+                num_outports, data_mem_size, ctrl_mem_size = 4,
+                vector_factor_power = 0,
+                data_bitwidth = 32):
+
+    super(ExtractPredicateRTL, s).construct(DataType, CtrlType,
+                                            num_inports, num_outports,
+                                            data_mem_size, ctrl_mem_size,
+                                            1, vector_factor_power,
+                                            data_bitwidth = data_bitwidth)
+
+    num_entries = 2
+    FuInType = mk_bits(clog2(num_inports + 1))
+    CountType = mk_bits(clog2(num_entries + 1))
+
+    s.in0 = Wire(FuInType)
+    
+    idx_nbits = clog2(num_inports)
+    s.in0_idx = Wire(idx_nbits)
+    s.in0_idx //= s.in0[0:idx_nbits]
+
+    @update
+    def comb_logic():
+
+      # Default values
+      s.in0 @= 0
+      for i in range(num_inports):
+        s.recv_in[i].rdy @= b1(0)
+      for i in range(num_outports):
+        s.send_out[i].val @= b1(0)
+        s.send_out[i].msg @= DataType()
+
+      s.recv_const.rdy @= 0
+      s.recv_opt.rdy @= 0
+
+      s.send_to_ctrl_mem.val @= 0
+      s.send_to_ctrl_mem.msg @= s.CgraPayloadType(0, 0, 0, 0, 0)
+      s.recv_from_ctrl_mem.rdy @= 0
+
+      if s.recv_opt.val:
+        if s.recv_opt.msg.fu_in[0] != FuInType(0):
+          s.in0 @= s.recv_opt.msg.fu_in[0] - FuInType(1)
+
+      if s.recv_opt.val:
+        if s.recv_opt.msg.operation == OPT_EXTRACT_PREDICATE:
+          # Extracts predicate bit from input and output as payload.
+          # When loop is running (predicate=1) -> payload=1
+          # When loop terminates (predicate=0) -> payload=0
+          # Downstream NOT will invert: running->0 (no RET), done->1 (trigger RET)
+          s.send_out[0].msg.payload @= zext(s.recv_in[s.in0_idx].msg.predicate, DataType.get_field_type('payload'))
+          s.send_out[0].msg.predicate @= 1
+          
+          s.send_out[0].val @= s.recv_in[s.in0_idx].val
+          s.recv_in[s.in0_idx].rdy @= s.recv_in[s.in0_idx].val & s.send_out[0].rdy
+          s.recv_opt.rdy @= s.recv_in[s.in0_idx].val & s.send_out[0].rdy
+
+        else:
+          for j in range(num_outports):
+            s.send_out[j].val @= b1(0)
+          s.recv_opt.rdy @= 0
+          s.recv_in[s.in0_idx].rdy @= 0
+
+  def line_trace(s):
+    opt_str = " #"
+    if s.recv_opt.val:
+      opt_str = OPT_SYMBOL_DICT[s.recv_opt.msg.operation]
+    out_str = ",".join([str(x.msg) for x in s.send_out])
+    recv_str = ",".join([str(x.msg) for x in s.recv_in])
+    return f'[ExtPred|recv: {recv_str}] {opt_str} = [out: {out_str}]'
@@ -117,7 +117,7 @@ def comb_logic():
             # Loop terminated: predicate = 0.
             s.send_out[0].msg.predicate @= 0
 
-            # Sends CMD_COMPLETE if not already done.
+            # Sends CMD_LEAF_COUNTER_COMPLETE if not already done.
             if ~s.already_done[addr]:
               s.send_to_ctrl_mem.val @= b1(1)
               s.send_to_ctrl_mem.msg @= s.CgraPayloadType(
 
@@ -0,0 +1,186 @@
+"""
+==========================================================================
+ExtractPredicateRTL_test.py
+==========================================================================
+Test cases for ExtractPredicateRTL functional unit.
+
+Author : Shangkun LI
+  Date : January 27, 2026
+"""
+
+import pytest
+
+from pymtl3 import *
+from pymtl3.stdlib.test_utils import (run_sim, config_model_with_cmdline_opts)
+
+from ....lib.messages import *
+from ....lib.opt_type import *
+from ..ExtractPredicateRTL import ExtractPredicateRTL
+from ....lib.basic.val_rdy.SourceRTL import SourceRTL as TestSrcRTL
+from ....lib.basic.val_rdy.SinkRTL import SinkRTL as TestSinkRTL
+
+#-------------------------------------------------------------------------
+# Test harness
+#-------------------------------------------------------------------------
+
+class TestHarness(Component):
+
+  def construct(s, FunctionUnit, DataType, CtrlType,
+                num_inports, num_outports,
+                data_mem_size, src_in0, src_opt, sink_out):
+
+    s.src_in0 = TestSrcRTL(DataType, src_in0)
+    s.src_opt = TestSrcRTL(CtrlType, src_opt)
+    s.sink_out = TestSinkRTL(DataType, sink_out)
+
+    s.dut = FunctionUnit(DataType, CtrlType,
+                         num_inports, num_outports,
+                         data_mem_size)
+
+    FuInType = mk_bits(clog2(num_inports + 1))
+
+    # Connections
+    s.src_in0.send //= s.dut.recv_in[0]
+    s.src_opt.send //= s.dut.recv_opt
+    s.dut.send_out[0] //= s.sink_out.recv
+
+    # Tie off unused ports
+    s.dut.recv_const.val //= 0
+    s.dut.recv_const.msg //= DataType()
+    for i in range(1, num_inports):
+      s.dut.recv_in[i].val //= 0
+      s.dut.recv_in[i].msg //= DataType()
+    for i in range(1, num_outports):
+      s.dut.send_out[i].rdy //= 0
+    
+    s.dut.recv_from_ctrl_mem.val //= 0
+    s.dut.recv_from_ctrl_mem.msg //= s.dut.CgraPayloadType()
+    s.dut.send_to_ctrl_mem.rdy //= 0
+
+  def done(s):
+    return s.src_in0.done() and s.src_opt.done() and s.sink_out.done()
+
+  def line_trace(s):
+    return s.dut.line_trace()
+
+def run_sim(th, max_cycles=100):
+  th.elaborate()
+  th.apply(DefaultPassGroup())
+  th.sim_reset()
+
+  ncycles = 0
+  print()
+  print("{:3}: {}".format(ncycles, th.line_trace()))
+  while not th.done() and ncycles < max_cycles:
+    th.sim_tick()
+    ncycles += 1
+    print("{:3}: {}".format(ncycles, th.line_trace()))
+
+  assert ncycles < max_cycles
+  th.sim_tick()
+  th.sim_tick()
+  th.sim_tick()
+
+#-------------------------------------------------------------------------
+# Test cases
+#-------------------------------------------------------------------------
+
+def test_extract_predicate_basic():
+  """Test basic predicate extraction"""
+  
+  num_inports = 4
+  num_outports = 2
+  data_mem_size = 8
+  
+  data_bitwidth = 32
+  DataType = mk_data(data_bitwidth, 1)
+  num_ctrl_operations = 64
+  num_fu_inports = num_inports
+  num_fu_outports = num_outports
+  num_tile_inports = 8
+  num_tile_outports = 8
+  num_registers_per_reg_bank = 16
+  CtrlType = mk_ctrl(num_fu_inports, num_fu_outports,
+                     num_tile_inports, num_tile_outports,
+                     num_registers_per_reg_bank)
+  FuInType = mk_bits(clog2(num_inports + 1))
+  
+  # Input data with different predicates
+  # payload doesn't matter, only predicate is extracted
+  src_in0 = [
+    DataType(100, 1),  # predicate = 1
+    DataType(200, 0),  # predicate = 0
+    DataType(300, 1),  # predicate = 1
+    DataType(400, 0),  # predicate = 0
+  ]
+  
+  # Operations: all OPT_EXTRACT_PREDICATE
+  src_opt = [
+    CtrlType(OPT_EXTRACT_PREDICATE, fu_in = [FuInType(1), FuInType(0), FuInType(0), FuInType(0)]),
+    CtrlType(OPT_EXTRACT_PREDICATE, fu_in = [FuInType(1), FuInType(0), FuInType(0), FuInType(0)]),
+    CtrlType(OPT_EXTRACT_PREDICATE, fu_in = [FuInType(1), FuInType(0), FuInType(0), FuInType(0)]),
+    CtrlType(OPT_EXTRACT_PREDICATE, fu_in = [FuInType(1), FuInType(0), FuInType(0), FuInType(0)]),
+  ]
+  
+  # Expected outputs: payload = extracted predicate, predicate = 1 (always valid)
+  sink_out = [
+    DataType(1, 1),  # extracted pred=1, output pred=1
+    DataType(0, 1),  # extracted pred=0, output pred=1
+    DataType(1, 1),  # extracted pred=1, output pred=1
+    DataType(0, 1),  # extracted pred=0, output pred=1
+  ]
+  
+  th = TestHarness(ExtractPredicateRTL, DataType, CtrlType,
+                   num_inports, num_outports, data_mem_size,
+                   src_in0, src_opt, sink_out)
+  run_sim(th)
+
+def test_extract_predicate_for_loop_termination():
+  """Test predicate extraction for loop termination detection"""
+  
+  num_inports = 4
+  num_outports = 2
+  data_mem_size = 8
+  
+  data_bitwidth = 32
+  DataType = mk_data(data_bitwidth, 1)
+  num_ctrl_operations = 64
+  num_fu_inports = num_inports
+  num_fu_outports = num_outports
+  num_tile_inports = 8
+  num_tile_outports = 8
+  num_registers_per_reg_bank = 16
+  CtrlType = mk_ctrl(num_fu_inports, num_fu_outports,
+                     num_tile_inports, num_tile_outports,
+                     num_registers_per_reg_bank)
+  FuInType = mk_bits(clog2(num_inports + 1))
+  
+  # Simulating counter output pattern:
+  # - pred=1 for valid iterations
+  # - pred=0 when loop terminates
+  src_in0 = [
+    DataType(0, 1),  # counter=0, pred=1 (valid)
+    DataType(1, 1),  # counter=1, pred=1 (valid)
+    DataType(2, 1),  # counter=2, pred=1 (valid)
+    DataType(3, 0),  # counter=3, pred=0 (terminated!)
+  ]
+  
+  src_opt = [
+    CtrlType(OPT_EXTRACT_PREDICATE, fu_in = [FuInType(1), FuInType(0), FuInType(0), FuInType(0)]),
+    CtrlType(OPT_EXTRACT_PREDICATE, fu_in = [FuInType(1), FuInType(0), FuInType(0), FuInType(0)]),
+    CtrlType(OPT_EXTRACT_PREDICATE, fu_in = [FuInType(1), FuInType(0), FuInType(0), FuInType(0)]),
+    CtrlType(OPT_EXTRACT_PREDICATE, fu_in = [FuInType(1), FuInType(0), FuInType(0), FuInType(0)]),
+  ]
+  
+  # Expected: extract predicate as boolean for use with NOT and grant_predicate
+  sink_out = [
+    DataType(1, 1),  # pred=1 -> payload=1 (continue)
+    DataType(1, 1),  # pred=1 -> payload=1 (continue)
+    DataType(1, 1),  # pred=1 -> payload=1 (continue)
+    DataType(0, 1),  # pred=0 -> payload=0 (terminate!)
+  ]
+  
+  th = TestHarness(ExtractPredicateRTL, DataType, CtrlType,
+                   num_inports, num_outports, data_mem_size,
+                   src_in0, src_opt, sink_out)
+  run_sim(th)
@@ -137,7 +137,7 @@ def test_leaf_counter_basic():
         CgraPayloadType(CMD_LEAF_COUNTER_COMPLETE, DataType(0,0), 0, CtrlType(OPT_LOOP_COUNT), 0)
     ]
 
-    ctrl_addrs = [0]*20
+    ctrl_addrs = [0]*10
 
     th = TestHarness(LoopCounterRTL, DataType, CtrlType, CgraPayloadType,
                      num_inports, num_outports,
 
@@ -108,6 +108,7 @@
 OPT_LOOP_CONTROL                 = OpCodeType( 83 )
 OPT_LOOP_COUNT                   = OpCodeType( 85 )
 OPT_LOOP_DELIVERY                = OpCodeType( 86 )
+OPT_EXTRACT_PREDICATE            = OpCodeType( 87 )
 
 OPT_SYMBOL_DICT = {
   OPT_START                      : "(start)",
@@ -197,5 +198,6 @@
 
   OPT_LOOP_CONTROL               : "(loop_ctrl)",
   OPT_LOOP_COUNT                 : "(loop_cnt)",
-  OPT_LOOP_DELIVERY              : "(loop_deli)"
+  OPT_LOOP_DELIVERY              : "(loop_deli)",
+  OPT_EXTRACT_PREDICATE          : "(extract_pred)"
 }
Original file line number	Diff line number	Diff line change
`@@ -137,7 +137,7 @@ def test_leaf_counter_basic():`
`137`	`137`	`CgraPayloadType(CMD_LEAF_COUNTER_COMPLETE, DataType(0,0), 0, CtrlType(OPT_LOOP_COUNT), 0)`
`138`	`138`	`]`
`139`	`139`
`140`		`- ctrl_addrs = [0]*20`
	`140`	`+ ctrl_addrs = [0]*10`
`141`	`141`
`142`	`142`	`th = TestHarness(LoopCounterRTL, DataType, CtrlType, CgraPayloadType,`
`143`	`143`	`num_inports, num_outports,`