[P0] Adding gpt-oss support

frankaging · frankaging · commit 8e7174bbb072 · 2025-08-05T14:14:36.000-07:00
diff --git a/pyproject.toml b/pyproject.toml
@@ -18,7 +18,7 @@ license = { text = "Apache License 2.0" }
 requires-python = ">=3.9"
 dependencies = [
     "torch>=2.0.0",
-    "transformers>=4.45.1",
+    "transformers>=4.55.0.dev0",
     "tokenizers>=0.20.0",
     "datasets>=3.0.1",
     "protobuf>=3.20.0",
diff --git a/pyvene/__init__.py b/pyvene/__init__.py
@@ -2,7 +2,11 @@
 
 # Generic APIs
 from .data_generators.causal_model import CausalModel
-from .models.intervenable_base import IntervenableModel, IntervenableNdifModel, build_intervenable_model
+from .models.intervenable_base import (
+    IntervenableModel,
+    IntervenableNdifModel,
+    build_intervenable_model,
+)
 from .models.configuration_intervenable_model import IntervenableConfig
 from .models.configuration_intervenable_model import RepresentationConfig
 
@@ -37,7 +41,10 @@
 # Utils
 from .models.basic_utils import *
 from .models.intervention_utils import _do_intervention_by_swap
-from .models.intervenable_modelcard import type_to_module_mapping, type_to_dimension_mapping
+from .models.intervenable_modelcard import (
+    type_to_module_mapping,
+    type_to_dimension_mapping,
+)
 from .models.gpt2.modelings_intervenable_gpt2 import create_gpt2
 from .models.gpt2.modelings_intervenable_gpt2 import create_gpt2_lm
 from .models.blip.modelings_intervenable_blip import create_blip
@@ -51,5 +58,8 @@
 from .models.gru.modelings_gru import GRUConfig
 from .models.llama.modelings_intervenable_llama import create_llama
 from .models.mlp.modelings_intervenable_mlp import create_mlp_classifier
-from .models.backpack_gpt2.modelings_intervenable_backpack_gpt2 import create_backpack_gpt2
+from .models.backpack_gpt2.modelings_intervenable_backpack_gpt2 import (
+    create_backpack_gpt2,
+)
 from .models.olmo.modelings_intervenable_olmo import create_olmo
+from .models.gpt_oss.modelings_intervenable_gpt_oss import create_gpt_oss
diff --git a/pyvene/models/README.md b/pyvene/models/README.md
@@ -0,0 +1,24 @@
+## How to add new models?
+
+You can prompt a LM to generate files, or modifying existing ones in this folder by simply following these steps:
+
+- Get the relevent implementation file from `https://github.com/huggingface/transformers/blob/main/src/transformers/models/` (e.g., the implementation for `gpt-oss` [here](https://github.com/huggingface/transformers/blob/main/src/transformers/models/gpt_oss/modeling_gpt_oss.py)).
+
+- Copy the whole transformer model src file.
+
+- Create a new folder for your new model.
+
+- Move one of the existing model file to your new folder (e.g., `/gpt2/modelings_intervenable_gpt2.py` along with the default `__init__.py` file).
+
+- Prompt a language model with the following template:
+
+```text
+[YOUR_EXAMPLE_PYVENE_MODEL_FILE_COPY]
+
+Generate a new mapping file based on the existing one above for the following new model:
+
+[HF_TRANSFORMER_MODEL_SRC_FILE_COPY]
+
+You also need to pay attention to these details:
+- [OTHER_REQ_GOES_HERE] (e.g., you need to take care of the MoE strcuture)
+```
diff --git a/pyvene/models/gpt_oss/__init__.py b/pyvene/models/gpt_oss/__init__.py
diff --git a/pyvene/models/gpt_oss/modelings_intervenable_gpt_oss.py b/pyvene/models/gpt_oss/modelings_intervenable_gpt_oss.py
@@ -0,0 +1,99 @@
+"""
+Each modeling file in this library is a mapping between
+abstract naming of intervention anchor points and actual
+model module defined in the huggingface library.
+
+We also want to let the intervention library know how to
+config the dimensions of intervention based on model config
+defined in the huggingface library.
+"""
+
+from ..constants import *
+
+
+"""gpt-oss base model"""
+gpt_oss_type_to_module_mapping = {
+    "block_input": ("layers[%s]", CONST_INPUT_HOOK),
+    "block_output": ("layers[%s]", CONST_OUTPUT_HOOK),
+    "mlp_input": ("layers[%s].mlp", CONST_INPUT_HOOK),
+    "mlp_output": ("layers[%s].mlp", CONST_OUTPUT_HOOK),
+    "router_input": ("layers[%s].mlp.router", CONST_INPUT_HOOK),
+    "router_output": ("layers[%s].mlp.router", CONST_OUTPUT_HOOK),
+    "expert_input": ("layers[%s].mlp.experts", CONST_INPUT_HOOK),
+    "expert_output": ("layers[%s].mlp.experts", CONST_OUTPUT_HOOK),
+    "attention_input": ("layers[%s].self_attn", CONST_INPUT_HOOK),
+    "attention_output": ("layers[%s].self_attn", CONST_OUTPUT_HOOK),
+    "attention_value_output": ("layers[%s].self_attn.o_proj", CONST_INPUT_HOOK),
+    "head_attention_value_output": (
+        "layers[%s].self_attn.o_proj",
+        CONST_INPUT_HOOK,
+        (split_head_and_permute, "num_attention_heads"),
+    ),
+    "query_output": ("layers[%s].self_attn.q_proj", CONST_OUTPUT_HOOK),
+    "key_output": ("layers[%s].self_attn.k_proj", CONST_OUTPUT_HOOK),
+    "value_output": ("layers[%s].self_attn.v_proj", CONST_OUTPUT_HOOK),
+    "head_query_output": (
+        "layers[%s].self_attn.q_proj",
+        CONST_OUTPUT_HOOK,
+        (split_head_and_permute, "num_attention_heads"),
+    ),
+    "head_key_output": (
+        "layers[%s].self_attn.k_proj",
+        CONST_OUTPUT_HOOK,
+        (split_head_and_permute, "num_key_value_heads"),
+    ),
+    "head_value_output": (
+        "layers[%s].self_attn.v_proj",
+        CONST_OUTPUT_HOOK,
+        (split_head_and_permute, "num_key_value_heads"),
+    ),
+}
+
+
+gpt_oss_type_to_dimension_mapping = {
+    "num_attention_heads": ("num_attention_heads",),
+    "num_key_value_heads": ("num_key_value_heads",),
+    "num_local_experts": ("num_local_experts",),
+    "num_experts_per_tok": ("num_experts_per_tok",),
+    "block_input": ("hidden_size",),
+    "block_output": ("hidden_size",),
+    "mlp_input": ("hidden_size",),
+    "mlp_output": ("hidden_size",),
+    "router_input": ("hidden_size",),
+    "router_output": ("num_local_experts",),
+    "expert_input": ("hidden_size",),
+    "expert_output": ("hidden_size",),
+    "attention_input": ("hidden_size",),
+    "attention_output": ("hidden_size",),
+    "attention_value_output": ("hidden_size",),
+    "head_attention_value_output": ("hidden_size/num_attention_heads",),
+    "query_output": ("hidden_size",),
+    "key_output": ("hidden_size",),
+    "value_output": ("hidden_size",),
+    "head_query_output": ("hidden_size/num_attention_heads",),
+    "head_key_output": ("hidden_size/num_key_value_heads",),
+    "head_value_output": ("hidden_size/num_key_value_heads",),
+}
+
+
+"""gpt-oss model with LM head"""
+gpt_oss_lm_type_to_module_mapping = {}
+for k, v in gpt_oss_type_to_module_mapping.items():
+    gpt_oss_lm_type_to_module_mapping[k] = (f"model.{v[0]}",) + v[1:]
+
+gpt_oss_lm_type_to_dimension_mapping = gpt_oss_type_to_dimension_mapping
+
+
+def create_gpt_oss(name="openai/gpt-oss-20b", cache_dir=None, access_token=None):
+    """Creates a GPT-OSS model, config, and tokenizer from the given name and revision"""
+    from transformers import AutoModelForCausalLM, AutoTokenizer, AutoConfig
+
+    config = AutoConfig.from_pretrained(name, cache_dir=cache_dir, token=access_token)
+    tokenizer = AutoTokenizer.from_pretrained(
+        name, cache_dir=cache_dir, token=access_token
+    )
+    gpt_oss = AutoModelForCausalLM.from_pretrained(
+        name, cache_dir=cache_dir, token=access_token
+    )
+    print("loaded model")
+    return config, tokenizer, gpt_oss
diff --git a/pyvene/models/intervenable_modelcard.py b/pyvene/models/intervenable_modelcard.py
@@ -12,10 +12,11 @@
 from .blip.modelings_intervenable_blip_itm import *
 from .backpack_gpt2.modelings_intervenable_backpack_gpt2 import *
 from .llava.modelings_intervenable_llava import *
-from .qwen2.modelings_intervenable_qwen2 import * 
+from .qwen2.modelings_intervenable_qwen2 import *
 from .olmo.modelings_intervenable_olmo import *
 from .esm.modelings_intervenable_esm import *
 from .mllama.modelings_intervenable_mllama import *
+from .gpt_oss.modelings_intervenable_gpt_oss import *
 
 #########################################################################
 """
@@ -65,7 +66,7 @@
     hf_models.gemma2.modeling_gemma2.Gemma2Model: gemma2_type_to_module_mapping,
     hf_models.gemma2.modeling_gemma2.Gemma2ForCausalLM: gemma2_lm_type_to_module_mapping,
     hf_models.olmo.modeling_olmo.OlmoModel: olmo_type_to_module_mapping,
-    hf_models.olmo.modeling_olmo.OlmoForCausalLM: olmo_lm_type_to_module_mapping,  
+    hf_models.olmo.modeling_olmo.OlmoForCausalLM: olmo_lm_type_to_module_mapping,
     hf_models.esm.modeling_esm.EsmModel: esm_type_to_module_mapping,
     hf_models.esm.modeling_esm.EsmForMaskedLM: esm_mlm_type_to_module_mapping,
     hf_models.blip.modeling_blip.BlipForQuestionAnswering: blip_type_to_module_mapping,
@@ -80,6 +81,8 @@
     hf_models.qwen2.modeling_qwen2.Qwen2ForCausalLM: qwen2_lm_type_to_module_mapping,
     hf_models.qwen2.modeling_qwen2.Qwen2ForSequenceClassification: qwen2_classifier_type_to_module_mapping,
     hf_models.mllama.modeling_mllama.MllamaForConditionalGeneration: mllama_type_to_module_mapping,
+    hf_models.gpt_oss.modeling_gpt_oss.GptOssModel: gpt_oss_type_to_module_mapping,
+    hf_models.gpt_oss.modeling_gpt_oss.GptOssForCausalLM: gpt_oss_lm_type_to_module_mapping,
 }
 if enable_blip:
     type_to_module_mapping[BlipWrapper] = blip_wrapper_type_to_module_mapping
@@ -105,7 +108,7 @@
     hf_models.gemma2.modeling_gemma2.Gemma2Model: gemma2_type_to_dimension_mapping,
     hf_models.gemma2.modeling_gemma2.Gemma2ForCausalLM: gemma2_lm_type_to_dimension_mapping,
     hf_models.olmo.modeling_olmo.OlmoModel: olmo_type_to_dimension_mapping,
-    hf_models.olmo.modeling_olmo.OlmoForCausalLM: olmo_lm_type_to_dimension_mapping, 
+    hf_models.olmo.modeling_olmo.OlmoForCausalLM: olmo_lm_type_to_dimension_mapping,
     hf_models.esm.modeling_esm.EsmModel: esm_type_to_dimension_mapping,
     hf_models.esm.modeling_esm.EsmForMaskedLM: esm_mlm_type_to_dimension_mapping,
     hf_models.blip.modeling_blip.BlipForQuestionAnswering: blip_type_to_dimension_mapping,
@@ -120,9 +123,13 @@
     hf_models.qwen2.modeling_qwen2.Qwen2ForCausalLM: qwen2_lm_type_to_dimension_mapping,
     hf_models.qwen2.modeling_qwen2.Qwen2ForSequenceClassification: qwen2_classifier_type_to_dimension_mapping,
     hf_models.mllama.modeling_mllama.MllamaForConditionalGeneration: mllama_type_to_dimension_mapping,
+    hf_models.gpt_oss.modeling_gpt_oss.GptOssModel: gpt_oss_type_to_dimension_mapping,
+    hf_models.gpt_oss.modeling_gpt_oss.GptOssForCausalLM: gpt_oss_lm_type_to_dimension_mapping,
 }
 
 if enable_blip:
     type_to_dimension_mapping[BlipWrapper] = blip_wrapper_type_to_dimension_mapping
-    type_to_dimension_mapping[BlipITMWrapper] = blip_itm_wrapper_type_to_dimension_mapping
+    type_to_dimension_mapping[BlipITMWrapper] = (
+        blip_itm_wrapper_type_to_dimension_mapping
+    )
 #########################################################################
diff --git a/tutorials/basic_tutorials/Basic_Intervention.ipynb b/tutorials/basic_tutorials/Basic_Intervention.ipynb
@@ -13,7 +13,7 @@
    "id": "89f31a38",
    "metadata": {},
    "source": [
-    "[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/frankaging/pyvene/blob/main/tutorials/basic_tutorials/Basic_Intervention.ipynb)"
+    "[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/stanfordnlp/pyvene/blob/main/tutorials/basic_tutorials/Basic_Intervention.ipynb)"
    ]
   },
   {
diff --git a/tutorials/basic_tutorials/gpt-oss.ipynb b/tutorials/basic_tutorials/gpt-oss.ipynb

Original file line number	Diff line number	Diff line change
`@@ -13,7 +13,7 @@`
`13`	`13`	`"id": "89f31a38",`
`14`	`14`	`"metadata": {},`
`15`	`15`	`"source": [`
`16`		`- "[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/frankaging/pyvene/blob/main/tutorials/basic_tutorials/Basic_Intervention.ipynb)"`
	`16`	`+ "[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/stanfordnlp/pyvene/blob/main/tutorials/basic_tutorials/Basic_Intervention.ipynb)"`
`17`	`17`	`]`
`18`	`18`	`},`
`19`	`19`	`{`