Aryaman Arora's picture

Aryaman Arora

aryaman

·

http://aryamanarora.github.io/

AI & ML interests

AI, mechanistic interpretability, South Asian languages

Organizations

authored 3 papers about 2 years ago

ReFT: Representation Finetuning for Language Models

Paper • 2404.03592 • Published Apr 4, 2024 • 101

CausalGym: Benchmarking causal interpretability methods on linguistic tasks

Paper • 2402.12560 • Published Feb 19, 2024 • 3

IruMozhi: Automatically classifying diglossia in Tamil

Paper • 2311.07804 • Published Nov 13, 2023

authored a paper over 2 years ago

A Reply to Makelov et al. (2023)'s "Interpretability Illusion" Arguments

Paper • 2401.12631 • Published Jan 23, 2024