Successfully replicated Anthropic's work on extracting monosemantic features from a one-layer transformer trained on Wikipedia's text. (Bricken, et al., "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning", Transformer Circuits Thread, 2023).
Trabajo práctico para la materia Procesamiento de Lenguaje Natural dictada por Luciano Del Corro en la Facultad de Ciencias Exactas y Naturales de la UBA.