Training › General Training¶

Source path: AlphaBrain/training/

Generic training entrypoints and shared utilities for VLA models. Continual Learning and Reinforcement Learning have their own pages:

Training entrypoints¶

`train_alphabrain.py` — main training entrypoint¶

train_alphabrain ¶

AlphaBrain’s trainer is built directly on native PyTorch + Accelerate + DeepSpeed, keeping the loop explicit and easy to hack. Conventions: 1. Store runtime state in dicts where possible (simplifies data info, procesing info, config, etc). 2. Use multiple dataloaders to adapt heterogeneous data types / task mixtures. 3. Put each training strategy in its own trainer_*.py file (avoid large if‑else chains).

VLATrainer ¶

VLATrainer(cfg, model, vla_train_dataloader, optimizer, lr_scheduler, accelerator)

Bases: TrainerUtils

Source code in AlphaBrain/training/train_alphabrain.py

def __init__(self, cfg, model, vla_train_dataloader, optimizer, lr_scheduler, accelerator):
    self.config = cfg
    self.model = model
    self.vla_train_dataloader = vla_train_dataloader
    self.optimizer = optimizer
    self.lr_scheduler = lr_scheduler
    self.accelerator = accelerator

    # LoRA
    from AlphaBrain.training.trainer_utils.peft import is_lora_enabled
    self.use_lora = is_lora_enabled(cfg)

    # training status tracking
    self.completed_steps = 0
    self.total_batch_size = self._calculate_total_batch_size()

    # EMA (Exponential Moving Average)
    ema_cfg = getattr(cfg.trainer, 'ema', None)
    self.use_ema = ema_cfg is not None and getattr(ema_cfg, 'enabled', False)
    self.ema_decay = getattr(ema_cfg, 'decay', 0.99) if ema_cfg else 0.99
    self.ema_model = None  # initialized after distributed setup

train ¶

train()

execute training loop

Source code in AlphaBrain/training/train_alphabrain.py

def train(self):
    """execute training loop"""
    # print training config
    self._log_training_config()

    # prepare data iterators
    self._create_data_iterators()

    # create progress bar
    progress_bar = tqdm(
        range(self.config.trainer.max_train_steps),
        initial=self.completed_steps,
        disable=not self.accelerator.is_local_main_process
    )

    # main training loop
    while self.completed_steps < self.config.trainer.max_train_steps:
        # get data batch
        t_start_data = time.perf_counter()
        batch_vla = self._get_next_batch()
        t_end_data = time.perf_counter()

        # execute training step
        t_start_model = time.perf_counter()
        step_metrics = self._train_step(batch_vla)
        t_end_model = time.perf_counter()

        # update progress
        if self.accelerator.sync_gradients:
            progress_bar.update(1)
            self.completed_steps += 1

        if self.accelerator.is_local_main_process:
            _postfix = {
                "action_dit_loss": f"{step_metrics.get('action_dit_loss', 0):.4f}",
                "data": f"{t_end_data - t_start_data:.3f}s",
                "fwd": f"{t_end_model - t_start_model:.3f}s",
            }
            if "video_loss" in step_metrics:
                _postfix["video_loss"] = f"{step_metrics['video_loss']:.4f}"
                _postfix["total_loss"] = f"{step_metrics.get('total_loss', 0):.4f}"
            progress_bar.set_postfix(_postfix)

        # evaluate model

        if self.completed_steps % self.config.trainer.eval_interval == 0:
            try:
                step_metrics = self.eval_action_model(step_metrics)
            except Exception as e:
                if self.accelerator.is_main_process:
                    logger.warning(f"eval_action_model failed: {e}, skipping")


        # record metrics
        step_metrics["data_time"] = t_end_data - t_start_data
        step_metrics["model_time"] = t_end_model - t_start_model
        self._log_metrics(step_metrics)

        # save checkpoint
        if self.completed_steps % self.config.trainer.save_interval == 0 and self.completed_steps > 0:
            self._save_checkpoint()

        # check termination condition
        if self.completed_steps >= self.config.trainer.max_train_steps:
            break

    # training end processing
    self._finalize_training()

eval_action_model ¶

eval_action_model(step_metrics: dict = None) -> float

Evaluate the model on the given dataset using the specified metric function.

:param eval_dataset: List of evaluation samples, each containing 'image', 'instruction', and 'action'. :param metric_fn: Function to compute the distance between predicted and ground truth actions. :return: Average metric score across the evaluation dataset.

Source code in AlphaBrain/training/train_alphabrain.py

def eval_action_model(self, step_metrics: dict = None) -> float:
    """
    Evaluate the model on the given dataset using the specified metric function.

    :param eval_dataset: List of evaluation samples, each containing 'image', 'instruction', and 'action'.
    :param metric_fn: Function to compute the distance between predicted and ground truth actions.
    :return: Average metric score across the evaluation dataset.
    """

    examples = self._get_next_batch()
    if examples is None:
        logger.warning('eval_action_model: got None batch, skipping')
        return step_metrics if step_metrics else {}
    score = 0.0
    num_samples = len(examples)
    batch_images = [example["image"] for example in examples]
    instructions = [example["lang"] for example in examples]
    actions = [example["action"] for example in examples]  # label
    states = [example["state"] for example in examples] if "state" in examples[0] else None
    # Predict actions using the model
    output_dict = self.model.predict_action(
        batch_images=batch_images, instructions=instructions, states=states,
        use_ddim=True, num_ddim_steps=20
    )

    if self.accelerator.is_main_process:
        normalized_actions = output_dict["normalized_actions"]  # B, T, D
        actions = np.array(actions)  # convert actions to numpy.ndarray
        # B, Chunk, dim = actions.shape
        num_elements = np.prod(actions.shape)
        # Compute the metric score
        score = TrainerUtils.euclidean_distance(normalized_actions, actions)
        average_score = score / num_elements
        step_metrics["mse_score"] = average_score

    del examples
    if dist.is_initialized():
        dist.barrier()  # ensure all processes are synchronized
    return step_metrics

setup_file_logging ¶

setup_file_logging(output_dir: str, rank: int = 0)

Add a FileHandler to root logger so all log messages are saved to a local file. Only the main process (rank 0) writes to avoid multi-process file conflicts.

Source code in AlphaBrain/training/train_alphabrain.py

def setup_file_logging(output_dir: str, rank: int = 0):
    """Add a FileHandler to root logger so all log messages are saved to a local file.
    Only the main process (rank 0) writes to avoid multi-process file conflicts.
    """
    if rank != 0:
        return None
    log_dir = os.path.join(output_dir, "logs")
    os.makedirs(log_dir, exist_ok=True)
    log_file = os.path.join(log_dir, f"train_{datetime.now().strftime('%Y%m%d_%H%M%S')}.log")

    file_handler = logging.FileHandler(log_file, encoding="utf-8")
    file_handler.setLevel(logging.INFO)
    formatter = logging.Formatter(
        "[%(asctime)s][%(name)s][%(levelname)s] %(message)s",
        datefmt="%Y-%m-%d %H:%M:%S",
    )
    file_handler.setFormatter(formatter)
    logging.getLogger().addHandler(file_handler)
    return log_file

setup_directories ¶

setup_directories(cfg) -> Path

create output directory and save config

Source code in AlphaBrain/training/train_alphabrain.py

def setup_directories(cfg) -> Path:
    """create output directory and save config"""
    cfg.output_dir = os.path.join(cfg.output_root_dir, cfg.run_id)
    output_dir = Path(cfg.output_dir)

    if not dist.is_initialized() or dist.get_rank() == 0:
        # create output directory and checkpoint directory
        os.makedirs(output_dir, exist_ok=True)
        os.makedirs(output_dir / "checkpoints", exist_ok=True)

        # setup file logging to save logs locally
        log_file = setup_file_logging(str(output_dir), rank=0)
        if log_file:
            logger.info(f"Training logs will be saved to: {log_file}")

        # # save config
        # OmegaConf.save(cfg, output_dir / "config.yaml")
        # with open(output_dir / "config.yaml", "r") as f_yaml, open(output_dir / "config.json", "w") as f_json:
        #     yaml_cfg = yaml.safe_load(f_yaml)
        #     json.dump(yaml_cfg, f_json, indent=2)

    return output_dir

build_model ¶

build_model(cfg) -> torch.nn.Module

build model framework

Source code in AlphaBrain/training/train_alphabrain.py

def build_model(cfg) -> torch.nn.Module:
    """build model framework"""
    if hasattr(cfg.framework, 'qwenvl') and hasattr(cfg.framework.qwenvl, 'base_vlm'):
        logger.info(f"Loading Base VLM `{cfg.framework.qwenvl.base_vlm}` from ID/Path")
    else:
        logger.info(f"Building framework: {cfg.framework.name}")
    model = build_framework(cfg)

    return model

prepare_data ¶

prepare_data(cfg, accelerator, output_dir) -> Tuple[DataLoader, DataLoader]

prepare training data

Source code in AlphaBrain/training/train_alphabrain.py

def prepare_data(cfg, accelerator, output_dir) -> Tuple[DataLoader, DataLoader]:
    """prepare training data"""
    # VLA data loader
    dataset_mix = getattr(cfg.datasets.vla_data, 'dataset_mix', 'N/A')
    logger.info(f"Creating VLA Dataset with Mixture `{dataset_mix}`")
    vla_train_dataloader = build_dataloader(cfg=cfg, dataloader_module=cfg.datasets.vla_data.dataloader_module)

    accelerator.dataloader_config.dispatch_batches = False
    if dist.is_initialized():
        dist.barrier()

    return vla_train_dataloader

setup_optimizer_and_scheduler ¶

setup_optimizer_and_scheduler(model, cfg) -> Tuple[torch.optim.Optimizer, torch.optim.lr_scheduler._LRScheduler]

set optimizer and scheduler

Source code in AlphaBrain/training/train_alphabrain.py

def setup_optimizer_and_scheduler(model, cfg) -> Tuple[torch.optim.Optimizer, torch.optim.lr_scheduler._LRScheduler]:
    """set optimizer and scheduler"""
    # initialize optimizer
    param_groups = build_param_lr_groups(model=model, cfg=cfg)
    optimizer = torch.optim.AdamW(
        param_groups,
        lr=cfg.trainer.learning_rate.base,
        betas=tuple(cfg.trainer.optimizer.betas),
        weight_decay=cfg.trainer.optimizer.weight_decay,
        eps=cfg.trainer.optimizer.eps,
    )

    # print optimizer group info
    if dist.is_initialized() and dist.get_rank() == 0:
        for i, group in enumerate(optimizer.param_groups):
            logger.info(f"LR Group {group['name']}: lr={group['lr']}, num_params={len(group['params'])}")

    # initialize learning rate scheduler
    scheduler_type = getattr(cfg.trainer, 'scheduler_type', None)
    if scheduler_type == 'lambda_linear':
        from omegaconf import OmegaConf
        t = cfg.trainer
        cycle_lengths = list(OmegaConf.to_container(t.cycle_lengths, resolve=True))
        warm_up_steps = list(OmegaConf.to_container(t.warm_up_steps, resolve=True))
        f_start = list(OmegaConf.to_container(t.f_start, resolve=True))
        f_max = list(OmegaConf.to_container(t.f_max, resolve=True))
        f_min = list(OmegaConf.to_container(t.f_min, resolve=True))
        lr_scheduler = _build_lambda_linear_scheduler(
            optimizer, cycle_lengths, warm_up_steps, f_start, f_max, f_min
        )
    else:
        lr_scheduler = get_scheduler(
            name=cfg.trainer.lr_scheduler_type,
            optimizer=optimizer,
            num_warmup_steps=cfg.trainer.num_warmup_steps,
            num_training_steps=cfg.trainer.max_train_steps,
            scheduler_specific_kwargs=cfg.trainer.scheduler_specific_kwargs,  # minimum learning rate
        )

    return optimizer, lr_scheduler

`train_alphabrain_cotrain.py` — co-training¶

train_alphabrain_cotrain ¶

AlphaBrain’s trainer is built directly on native PyTorch + Accelerate + DeepSpeed, keeping the loop explicit and easy to hack. Conventions: 1. Store runtime state in dicts where possible (simplifies data info, procesing info, config, etc). 2. Use multiple dataloaders to adapt heterogeneous data types / task mixtures. 3. Put each training strategy in its own trainer_*.py file (avoid large if‑else chains).

VLATrainer ¶

VLATrainer(cfg, model, vla_train_dataloader, vlm_train_dataloader, optimizer, lr_scheduler, accelerator)

Bases: TrainerUtils

Source code in AlphaBrain/training/train_alphabrain_cotrain.py

def __init__(self, cfg, model, vla_train_dataloader, vlm_train_dataloader, optimizer, lr_scheduler, accelerator):
    self.config = cfg
    self.model = model
    self.vla_train_dataloader = vla_train_dataloader
    self.vlm_train_dataloader = vlm_train_dataloader
    self.optimizer = optimizer
    self.lr_scheduler = lr_scheduler
    self.accelerator = accelerator

    self.completed_steps = 0
    self.total_batch_size = self._calculate_total_batch_size()

train ¶

train()

Execute training loop.

Source code in AlphaBrain/training/train_alphabrain_cotrain.py

def train(self):
    """Execute training loop."""
    self._log_training_config()
    self._create_data_iterators()
    progress_bar = tqdm(
        range(self.config.trainer.max_train_steps), disable=not self.accelerator.is_local_main_process
    )

    while self.completed_steps < self.config.trainer.max_train_steps:
        t_start_data = time.perf_counter()
        batch_vla, batch_vlm = self._get_next_batch()
        t_end_data = time.perf_counter()

        t_start_model = time.perf_counter()
        step_metrics = self._train_step(batch_vla, batch_vlm)
        t_end_model = time.perf_counter()

        if self.accelerator.sync_gradients:
            progress_bar.update(1)
            self.completed_steps += 1

        if self.accelerator.is_local_main_process:
            progress_bar.set_postfix(
                {
                    "data_times": f"{t_end_data - t_start_data:.3f}",
                    "model_times": f"{t_end_model - t_start_model:.3f}",
                }
            )

        if self.completed_steps % self.config.trainer.eval_interval == 0:
            step_metrics = self.eval_action_model(step_metrics)

        step_metrics["data_time"] = t_end_data - t_start_data
        step_metrics["model_time"] = t_end_model - t_start_model
        self._log_metrics(step_metrics)

        if self.completed_steps % self.config.trainer.save_interval == 0 and self.completed_steps > 0:
            self._save_checkpoint()
            dist.barrier()

        if self.completed_steps >= self.config.trainer.max_train_steps:
            break

    self._finalize_training()

eval_action_model ¶

eval_action_model(step_metrics: dict = None) -> float

Evaluate action prediction with current model.

Source code in AlphaBrain/training/train_alphabrain_cotrain.py

def eval_action_model(self, step_metrics: dict = None) -> float:
    """Evaluate action prediction with current model."""
    if self.accelerator.is_main_process:
        examples, _ = self._get_next_batch()
        actions = [example["action"] for example in examples]

        output_dict = self.model.predict_action(examples=examples)
        normalized_actions = output_dict["normalized_actions"]

        actions = np.array(actions)
        num_elements = np.prod(actions.shape)
        score = TrainerUtils.euclidean_distance(normalized_actions, actions)
        step_metrics["mse_score"] = score / num_elements

    dist.barrier()
    return step_metrics

setup_file_logging ¶

setup_file_logging(output_dir: str, rank: int = 0)

Add a FileHandler to root logger so all log messages are saved to a local file. Only the main process (rank 0) writes to avoid multi-process file conflicts.

Source code in AlphaBrain/training/train_alphabrain_cotrain.py

def setup_file_logging(output_dir: str, rank: int = 0):
    """Add a FileHandler to root logger so all log messages are saved to a local file.
    Only the main process (rank 0) writes to avoid multi-process file conflicts.
    """
    if rank != 0:
        return None
    log_dir = os.path.join(output_dir, "logs")
    os.makedirs(log_dir, exist_ok=True)
    log_file = os.path.join(log_dir, f"train_{datetime.now().strftime('%Y%m%d_%H%M%S')}.log")

    file_handler = logging.FileHandler(log_file, encoding="utf-8")
    file_handler.setLevel(logging.INFO)
    formatter = logging.Formatter(
        "[%(asctime)s][%(name)s][%(levelname)s] %(message)s",
        datefmt="%Y-%m-%d %H:%M:%S",
    )
    file_handler.setFormatter(formatter)
    logging.getLogger().addHandler(file_handler)
    return log_file

setup_directories ¶

setup_directories(cfg) -> Path

Create output directory and checkpoint directory.

Source code in AlphaBrain/training/train_alphabrain_cotrain.py

def setup_directories(cfg) -> Path:
    """Create output directory and checkpoint directory."""
    cfg.output_dir = os.path.join(cfg.output_root_dir, cfg.run_id)
    output_dir = Path(cfg.output_dir)

    if not dist.is_initialized() or dist.get_rank() == 0:
        os.makedirs(output_dir, exist_ok=True)
        os.makedirs(output_dir / "checkpoints", exist_ok=True)

        # setup file logging to save logs locally
        log_file = setup_file_logging(str(output_dir), rank=0)
        if log_file:
            logger.info(f"Training logs will be saved to: {log_file}")

    return output_dir

prepare_data ¶

prepare_data(cfg, accelerator, output_dir) -> Tuple[DataLoader, DataLoader]

Prepare co-training data.

Source code in AlphaBrain/training/train_alphabrain_cotrain.py

def prepare_data(cfg, accelerator, output_dir) -> Tuple[DataLoader, DataLoader]:
    """Prepare co-training data."""
    logger.info(f"Creating VLA Dataset with Mixture `{cfg.datasets.vla_data.dataset_mix}`")
    vla_train_dataloader = build_dataloader(cfg=cfg, dataloader_module=cfg.datasets.vla_data.dataloader_module)
    vlm_train_dataloader = build_dataloader(cfg=cfg, dataloader_module=cfg.datasets.vlm_data.dataloader_module)

    accelerator.dataloader_config.dispatch_batches = False
    dist.barrier()
    return vla_train_dataloader, vlm_train_dataloader

setup_optimizer_and_scheduler ¶

setup_optimizer_and_scheduler(model, cfg) -> Tuple[torch.optim.Optimizer, torch.optim.lr_scheduler._LRScheduler]

Set optimizer and learning rate scheduler.

Source code in AlphaBrain/training/train_alphabrain_cotrain.py

def setup_optimizer_and_scheduler(model, cfg) -> Tuple[torch.optim.Optimizer, torch.optim.lr_scheduler._LRScheduler]:
    """Set optimizer and learning rate scheduler."""
    param_groups = build_param_lr_groups(model=model, cfg=cfg)
    optimizer = torch.optim.AdamW(
        param_groups,
        lr=cfg.trainer.learning_rate.base,
        betas=tuple(cfg.trainer.optimizer.betas),
        weight_decay=cfg.trainer.optimizer.weight_decay,
        eps=cfg.trainer.optimizer.eps,
    )

    if dist.is_initialized() and dist.get_rank() == 0:
        for group in optimizer.param_groups:
            logger.info(f"LR Group {group['name']}: lr={group['lr']}, num_params={len(group['params'])}")

    lr_scheduler = get_scheduler(
        name=cfg.trainer.lr_scheduler_type,
        optimizer=optimizer,
        num_warmup_steps=cfg.trainer.num_warmup_steps,
        num_training_steps=cfg.trainer.max_train_steps,
        scheduler_specific_kwargs=cfg.trainer.scheduler_specific_kwargs,
    )

    return optimizer, lr_scheduler

`train_alphabrain_vlm.py` — VLM-only training¶

train_alphabrain_vlm ¶

AlphaBrain’s trainer is built directly on native PyTorch + Accelerate + DeepSpeed, keeping the loop explicit and easy to hack. Conventions: 1. Store runtime state in dicts where possible (simplifies data info, procesing info, config, etc). 2. Use multiple dataloaders to adapt heterogeneous data types / task mixtures. 3. Put each training strategy in its own trainer_*.py file (avoid large if‑else chains).

VLATrainer ¶

VLATrainer(cfg, model, vlm_train_dataloader, optimizer, lr_scheduler, accelerator)

Bases: TrainerUtils

Source code in AlphaBrain/training/train_alphabrain_vlm.py

def __init__(self, cfg, model, vlm_train_dataloader, optimizer, lr_scheduler, accelerator):
    self.config = cfg
    self.model = model
    self.vlm_train_dataloader = vlm_train_dataloader
    self.optimizer = optimizer
    self.lr_scheduler = lr_scheduler
    self.accelerator = accelerator

    self.completed_steps = 0
    self.total_batch_size = self._calculate_total_batch_size()

train ¶

train()

Execute training loop.

Source code in AlphaBrain/training/train_alphabrain_vlm.py

def train(self):
    """Execute training loop."""
    self._log_training_config()
    self._create_data_iterators()
    progress_bar = tqdm(
        range(self.config.trainer.max_train_steps), disable=not self.accelerator.is_local_main_process
    )

    while self.completed_steps < self.config.trainer.max_train_steps:
        batch_vlm = self._get_next_batch()
        step_metrics = self._train_step(batch_vlm)

        if self.accelerator.sync_gradients:
            progress_bar.update(1)
            self.completed_steps += 1

        if self.completed_steps % self.config.trainer.eval_interval == 0:
            step_metrics = self.eval_action_model(step_metrics)

        self._log_metrics(step_metrics)

        if self.completed_steps % self.config.trainer.save_interval == 0 and self.completed_steps > 0:
            self._save_checkpoint()
            dist.barrier()

        if self.completed_steps >= self.config.trainer.max_train_steps:
            break

    self._finalize_training()

eval_action_model ¶

eval_action_model(step_metrics=None)

No-op evaluation for VLM-only training.

Source code in AlphaBrain/training/train_alphabrain_vlm.py

def eval_action_model(self, step_metrics=None):
    """No-op evaluation for VLM-only training."""
    return step_metrics or {}

setup_directories ¶

setup_directories(cfg) -> Path

Create output directory and checkpoint directory.

Source code in AlphaBrain/training/train_alphabrain_vlm.py

def setup_directories(cfg) -> Path:
    """Create output directory and checkpoint directory."""
    cfg.output_dir = os.path.join(cfg.output_root_dir, cfg.run_id)
    output_dir = Path(cfg.output_dir)

    if not dist.is_initialized() or dist.get_rank() == 0:
        os.makedirs(output_dir, exist_ok=True)
        os.makedirs(output_dir / "checkpoints", exist_ok=True)

    return output_dir

prepare_data ¶

prepare_data(cfg, accelerator, output_dir) -> DataLoader

Prepare VLM training data.

Source code in AlphaBrain/training/train_alphabrain_vlm.py

def prepare_data(cfg, accelerator, output_dir) -> DataLoader:
    """Prepare VLM training data."""
    logger.info(f"Creating VLM Dataset `{cfg.datasets.vlm_data.dataset_use}`")
    vlm_train_dataloader = build_dataloader(cfg=cfg, dataloader_module=cfg.datasets.vlm_data.dataloader_module)

    accelerator.dataloader_config.dispatch_batches = False
    dist.barrier()
    return vlm_train_dataloader

setup_optimizer_and_scheduler ¶

setup_optimizer_and_scheduler(model, cfg) -> Tuple[torch.optim.Optimizer, torch.optim.lr_scheduler._LRScheduler]

Set optimizer and learning rate scheduler.

Source code in AlphaBrain/training/train_alphabrain_vlm.py

def setup_optimizer_and_scheduler(model, cfg) -> Tuple[torch.optim.Optimizer, torch.optim.lr_scheduler._LRScheduler]:
    """Set optimizer and learning rate scheduler."""
    param_groups = build_param_lr_groups(model=model, cfg=cfg)
    optimizer = torch.optim.AdamW(
        param_groups,
        lr=cfg.trainer.learning_rate.base,
        betas=tuple(cfg.trainer.optimizer.betas),
        weight_decay=cfg.trainer.optimizer.weight_decay,
        eps=cfg.trainer.optimizer.eps,
    )

    if dist.is_initialized() and dist.get_rank() == 0:
        for group in optimizer.param_groups:
            logger.info(f"LR Group {group['name']}: lr={group['lr']}, num_params={len(group['params'])}")

    lr_scheduler = get_scheduler(
        name=cfg.trainer.lr_scheduler_type,
        optimizer=optimizer,
        num_warmup_steps=cfg.trainer.num_warmup_steps,
        num_training_steps=cfg.trainer.max_train_steps,
        scheduler_specific_kwargs=cfg.trainer.scheduler_specific_kwargs,
    )

    return optimizer, lr_scheduler

`train_stdp.py` — STDP spiking-model training¶

train_stdp ¶

STDP Fine-tuning Training Script for NeuroVLA.

This script loads a pretrained NeuroVLA checkpoint and fine-tunes the SNN action head using Reward-Modulated STDP (R-STDP), optionally blended with standard backpropagation gradients.

Modes

hybrid: Δw = α·Δw_backprop + β·Δw_rstdp (default)
pure_stdp: Δw = Δw_rstdp only (no backprop for SNN weights)

Usage

accelerate launch AlphaBrain/training/train_stdp.py --config_yaml configs/finetune_config.yaml --mode neuro_vla_stdp

STDPTrainer ¶

STDPTrainer(cfg, model, dataloader, optimizer, lr_scheduler, accelerator)

Bases: TrainerUtils

Trainer for R-STDP fine-tuning of NeuroVLA.

Extends the standard training loop with: 1. SpikeMonitor to record spike timing from LIF layers 2. STDPLearner to compute STDP weight updates 3. RSTDPOptimizer to blend backprop and STDP updates

Source code in AlphaBrain/training/train_stdp.py

def __init__(self, cfg, model, dataloader, optimizer, lr_scheduler, accelerator):
    self.config = cfg
    self.model = model
    self.dataloader = dataloader
    self.optimizer = optimizer
    self.lr_scheduler = lr_scheduler
    self.accelerator = accelerator

    self.completed_steps = 0
    self.total_batch_size = self._calculate_total_batch_size()

    # STDP configuration
    stdp_cfg = cfg.stdp if hasattr(cfg, "stdp") else OmegaConf.create({})
    self.stdp_enabled = getattr(stdp_cfg, "enabled", True)
    self.stdp_mode = getattr(stdp_cfg, "mode", "hybrid")
    self.alpha = getattr(stdp_cfg, "alpha", 0.7)
    self.beta = getattr(stdp_cfg, "beta", 0.3)

    # STDP components (initialized in prepare_training)
    self.spike_monitor = None
    self.stdp_learner = None
    self.rstdp_optimizer = None

    # EMA reward tracker for smoother R-STDP signal
    self._ema_loss: float = None
    self._ema_decay: float = 0.95

Trainer utilities¶

Shared training utilities: structured logging (overwatch), PEFT, finetune configuration, checkpoint tracking, and more.

Overwatch (unified logging)¶

overwatch ¶

overwatch.py

Original file from OpenVLA project (Prismatic), licensed under MIT License.¶

See https://github.com/openvla/openvla for full license text and contributors.¶

Modified by @JinhuiYE, [2025]¶

Utility class for creating a centralized/standardized logger (built on Rich) and accelerate handler.

DistributedOverwatch ¶

DistributedOverwatch(name: str)

Initializer for an Overwatch object that wraps logging & accelerate.PartialState.

Source code in AlphaBrain/training/trainer_utils/overwatch.py

def __init__(self, name: str) -> None:
    """Initializer for an Overwatch object that wraps logging & `accelerate.PartialState`."""
    from accelerate import PartialState

    # Note that PartialState is always safe to initialize regardless of `accelerate launch` or `torchrun`
    #   =>> However, might be worth actually figuring out if we need the `accelerate` dependency at all!
    self.logger, self.distributed_state = ContextAdapter(logging.getLogger(name), extra={}), PartialState()

    # Logger Delegation
    self.debug = self.logger.debug
    self.info = self.logger.info
    self.warning = self.logger.warning
    self.error = self.logger.error
    self.critical = self.logger.critical

    # Logging Defaults =>> only Log `INFO` on Main Process, `ERROR` on others!
    self.logger.setLevel(logging.INFO if self.distributed_state.is_main_process else logging.ERROR)

PureOverwatch ¶

PureOverwatch(name: str)

Initializer for an Overwatch object that just wraps logging.

Source code in AlphaBrain/training/trainer_utils/overwatch.py

def __init__(self, name: str) -> None:
    """Initializer for an Overwatch object that just wraps logging."""
    self.logger = ContextAdapter(logging.getLogger(name), extra={})

    # Logger Delegation
    self.debug = self.logger.debug
    self.info = self.logger.info
    self.warning = self.logger.warning
    self.error = self.logger.error
    self.critical = self.logger.critical

    # Logging Defaults =>> INFO
    self.logger.setLevel(logging.INFO)

Finetune configuration¶

finetune_config ¶

Utilities for loading finetune_config.yaml as the primary training config.

Merge order (lowest → highest priority): configs/models/.yaml < configs/datasets/.yaml < configs/trainer/.yaml < train_recipe (if mode.config_yaml is set) < finetune_config global sections (environment, seed) < mode-derived field mappings < mode.framework / mode.datasets / mode.trainer direct overrides < mode.extra_args < CLI args (applied by caller)

expand_env_vars ¶

expand_env_vars(value)

Expand bash-style ${VAR} / ${VAR:-default} in a string. No-op for non-strings.

Source code in AlphaBrain/training/trainer_utils/finetune_config.py

def expand_env_vars(value):
    """Expand bash-style ${VAR} / ${VAR:-default} in a string. No-op for non-strings."""
    if not isinstance(value, str):
        return value
    def _replace(m):
        var, default = m.group(1), m.group(3)
        return os.environ.get(var, default if default is not None else "")
    return re.sub(r'\$\{([A-Za-z_][A-Za-z0-9_]*)(:-(.*?))?\}', _replace, value)

build_config_from_finetune ¶

build_config_from_finetune(finetune_cfg, mode: str)

Build an OmegaConf training config from finetune_config.yaml + mode name.

Source code in AlphaBrain/training/trainer_utils/finetune_config.py

def build_config_from_finetune(finetune_cfg, mode: str):
    """Build an OmegaConf training config from finetune_config.yaml + mode name."""
    all_modes = OmegaConf.to_container(finetune_cfg.modes, resolve=False)
    if mode not in all_modes:
        raise ValueError(f"Mode '{mode}' not found. Available: {list(all_modes.keys())}")

    # Work with a plain dict to avoid OmegaConf misinterpreting bash ${...} syntax
    mode_dict = OmegaConf.to_container(finetune_cfg.modes[mode], resolve=False)
    global_defaults = OmegaConf.to_container(finetune_cfg.get('defaults', {}), resolve=False)

    # ── 1. Base configs (model / dataset / trainer defaults) ──────────────────
    base_cfgs = []
    model_key    = mode_dict.get('model')    or global_defaults.get('model')
    dataset_key  = mode_dict.get('dataset')  or global_defaults.get('dataset')
    trainer_key  = mode_dict.get('trainer_defaults') or global_defaults.get('trainer')
    if model_key:   base_cfgs.append(OmegaConf.load(f"configs/models/{model_key}.yaml"))
    if dataset_key: base_cfgs.append(OmegaConf.load(f"configs/datasets/{dataset_key}.yaml"))
    if trainer_key: base_cfgs.append(OmegaConf.load(f"configs/trainer/{trainer_key}.yaml"))

    # Optional train recipe (backward compat; mode.config_yaml)
    recipe_path = mode_dict.get('config_yaml', '')
    if recipe_path and os.path.exists(recipe_path):
        recipe = OmegaConf.load(recipe_path)
        if '_model_config_' in recipe:
            recipe = OmegaConf.merge(OmegaConf.load(recipe.pop('_model_config_')), recipe)
        if 'defaults' in recipe:
            rd = recipe.pop('defaults')
            if 'model' in rd:
                recipe = OmegaConf.merge(OmegaConf.load(f"configs/models/{rd.model}.yaml"), recipe)
        base_cfgs.append(recipe)

    base = OmegaConf.merge(*base_cfgs) if base_cfgs else OmegaConf.create({})

    # ── 2. Global overrides from finetune_config (environment, seed) ──────────
    # NOTE: 'paths' is intentionally excluded — it's only for path resolution,
    #       not part of the training config, and its bash ${...} values would
    #       break OmegaConf interpolation resolution later.
    global_ov = {}
    for key in ('environment', 'seed'):
        if key in finetune_cfg:
            val = finetune_cfg[key]
            global_ov[key] = OmegaConf.to_container(val, resolve=False) if OmegaConf.is_config(val) else val

    # ── 3. Mode field mappings ─────────────────────────────────────────────────
    mode_ov = {}

    if 'run_id' in mode_dict:
        mode_ov['run_id'] = mode_dict['run_id']

    if 'output_root_dir' in mode_dict:
        mode_ov['output_root_dir'] = mode_dict['output_root_dir']
    elif 'common' in finetune_cfg and 'output_root_dir' in finetune_cfg.common:
        mode_ov['output_root_dir'] = finetune_cfg.common.output_root_dir

    if 'framework_name' in mode_dict:
        mode_ov.setdefault('framework', {})['name'] = mode_dict['framework_name']

    if 'base_vlm' in mode_dict:
        base_vlm = expand_env_vars(mode_dict['base_vlm'])
        # 预训练模型目录统一从环境变量 PRETRAINED_MODELS_DIR 读取
        pretrained_dir = os.environ.get('PRETRAINED_MODELS_DIR', 'data/pretrained_models')
        if not os.path.isabs(base_vlm) and not base_vlm.startswith('./') and not base_vlm.startswith('data/'):
            base_vlm = os.path.join(pretrained_dir, base_vlm)
        mode_ov.setdefault('framework', {}).setdefault('qwenvl', {})['base_vlm'] = base_vlm

    if 'data_root' in mode_dict:
        mode_ov.setdefault('datasets', {}).setdefault('vla_data', {})['data_root_dir'] = expand_env_vars(mode_dict['data_root'])
    if 'dataset_mix' in mode_dict:
        mode_ov.setdefault('datasets', {}).setdefault('vla_data', {})['dataset_mix'] = mode_dict['dataset_mix']

    training = mode_dict.get('training', {})
    for field in ('gradient_accumulation_steps', 'max_train_steps', 'save_interval', 'eval_interval', 'freeze_modules', 'pretrained_checkpoint'):
        if field in training:
            mode_ov.setdefault('trainer', {})[field] = training[field]
    if 'per_device_batch_size' in training:
        mode_ov.setdefault('datasets', {}).setdefault('vla_data', {})['per_device_batch_size'] = training['per_device_batch_size']

    # ── 4. Direct nested overrides (framework / datasets / trainer in mode) ───
    direct_ov = {k: mode_dict[k] for k in ('framework', 'datasets', 'trainer', 'trackers', 'wandb_project', 'wandb_entity', 'is_debug', 'stdp', 'lora') if k in mode_dict}

    def _recursive_expand_env(obj):
        """Recursively expand ${VAR} / ${VAR:-default} in all string values."""
        if isinstance(obj, str):
            return expand_env_vars(obj)
        elif isinstance(obj, dict):
            return {k: _recursive_expand_env(v) for k, v in obj.items()}
        elif isinstance(obj, list):
            return [_recursive_expand_env(v) for v in obj]
        return obj

    direct_ov = _recursive_expand_env(direct_ov)

    # ── 5. Merge everything ───────────────────────────────────────────────────
    cfg = OmegaConf.merge(base, OmegaConf.create(global_ov), OmegaConf.create(mode_ov), OmegaConf.create(direct_ov))

    # ── 6. extra_args ─────────────────────────────────────────────────────────
    extra_args = mode_dict.get('extra_args', [])
    if extra_args:
        cfg = OmegaConf.merge(cfg, OmegaConf.from_dotlist(normalize_dotlist_args(extra_args)))

    return cfg

Configuration tracker¶

config_tracker ¶

AccessTrackedConfig ¶

AccessTrackedConfig(cfg: Union[DictConfig, ListConfig], parent: AccessTrackedConfig = None, key_path: str = '')

Wrapper for OmegaConf to track accessed parameters. Only saves configuration items that were actually accessed during execution.