Papers3

#KV Cache

ConceptMoE teaches a language model to group easy, similar tokens into bigger ideas called concepts, so it spends more brainpower on the hard parts.

Not triaged yet

This paper builds DiRL, a fast and careful way to finish training diffusion language models so they reason better.

Not triaged yet

Long texts make standard attention in large language models very slow because it checks every word against every other word.

Not triaged yet