Sparse Autoencoder Features in Apertus Middle Layers

L. Frei, M. SinghFebruary 14, 2026

BlogpostSAEsMechanistic-interpretabilityFeature-analysis

TLDR

A study of SAE-derived features in mid-layer MLP activations with a focus on locality and stability across checkpoints.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Integer id urna sed nibh scelerisque convallis. Vestibulum ac mattis neque. Cras fringilla, turpis sed aliquet ultrices, mi sem cursus est, a vulputate dui urna in sem.

1. Method

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Aenean aliquam vulputate lectus, non viverra dui ultrices at. Curabitur bibendum nibh at justo fermentum, sed feugiat risus luctus.

2. Findings

Lorem ipsum dolor sit amet
Consectetur adipiscing elit
Integer vitae nibh at orci varius facilisis

Author Note

Example artifact page (offline demo mode).

BibTeX

@article{frei2026sae,
  title={Sparse Autoencoder Features in Apertus Middle Layers},
  author={Frei, L. and Singh, M.},
  journal={Apertus Claritas Reports},
  year={2026}
}

Comments

Comments are not available on example artifacts.

Related artifacts

Early-layer Circuits for Language Identification in Apertus

Circuits

An Active Interpretability Dashboard for Apertus

Software