LangQuant
/

LQ-Kbert-base

@@ -1,28 +1,29 @@
 # modeling_kbert_mtl.py
 import torch
 import torch.nn as nn
-from transformers import PreTrainedModel, AutoModel, AutoConfig, BertConfig
-def _config_from_base_dict(base_cfg_dict: dict):
     if base_cfg_dict is None:
         raise ValueError("config.base_model_config is required for offline load.")
-    model_type = "bert"
-    try:
-        kwargs = {k: v for k, v in base_cfg_dict.items() if k != "model_type"}
-        cfg = AutoConfig.for_model(model_type, **kwargs)
-    except Exception:
-        cfg = BertConfig(**{k: v for k, v in base_cfg_dict.items() if k != "model_type"})
-    return cfg
 class KbertMTL(PreTrainedModel):
     config_class = BertConfig
     def __init__(self, config):
         super().__init__(config)
-        base_cfg_dict = getattr(config, "base_model_config", None)
-        base_cfg = _config_from_base_dict(base_cfg_dict)
-        self.bert = AutoModel.from_config(base_cfg)
         hidden = self.bert.config.hidden_size
         self.head_senti = nn.Linear(hidden, 5)
@@ -38,7 +39,7 @@ class KbertMTL(PreTrainedModel):
         if self.has_token_type and token_type_ids is not None:
             kw["token_type_ids"] = token_type_ids
         out = self.bert(**kw)
-        h = out.last_hidden_state[:, 0]
         return {
             "logits_senti": self.head_senti(h),
             "logits_act":   self.head_act(h),

 # modeling_kbert_mtl.py
 import torch
 import torch.nn as nn
+from transformers import PreTrainedModel, BertConfig, BertModel
+def _bert_config_from_base_dict(base_cfg_dict: dict) -> BertConfig:
     if base_cfg_dict is None:
         raise ValueError("config.base_model_config is required for offline load.")
+    base_cfg_dict = dict(base_cfg_dict)  # shallow copy
+    base_cfg_dict["model_type"] = "bert"
+    allowed = set(BertConfig().to_dict().keys())
+    kwargs = {k: v for k, v in base_cfg_dict.items() if k in allowed}
+    return BertConfig(**kwargs)
 class KbertMTL(PreTrainedModel):
     config_class = BertConfig
     def __init__(self, config):
         super().__init__(config)
+        base_cfg_dict = getattr(config, "base_model_config", None)
+        bert_cfg = _bert_config_from_base_dict(base_cfg_dict)
+        self.bert = BertModel(bert_cfg)
         hidden = self.bert.config.hidden_size
         self.head_senti = nn.Linear(hidden, 5)
         if self.has_token_type and token_type_ids is not None:
             kw["token_type_ids"] = token_type_ids
         out = self.bert(**kw)
+        h = out.last_hidden_state[:, 0]  # [CLS]
         return {
             "logits_senti": self.head_senti(h),
             "logits_act":   self.head_act(h),