publications

publications by categories in reversed chronological order. generated by jekyll-scholar.

2025

MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive-First Text Sources

Huu Nguyen, Victor May, Harsh Raj, and 14 more authors

2025

Website
Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs

Ken Tsui

2025

Website
NumSeqBench: Benchmarking Inductive Reasoning in Language Models via Number Sequences

Ken Tsui

2025

Website

2024

Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code

Taishi Nakamura, Mayank Mishra, Simone Tedeschi, and 42 more authors

2024

Website