Jiang Liu

I am a Senior Applied Research Scientist in the AMD GenAI team. I received my Ph.D degree from Department of Electrical and Computer Engineering, Johns Hopkins University in 2024, advised by Prof. Rama Chellappa. I was awarded the Amazon AI2AI Fellowship in 2023. I received my BSE degree from Department of Automation, Tsinghua University in 2019 advised by Prof. Jianjiang Feng and Prof. Jie Zhou.

In summer 2023, I interned at Microsoft Azure AI with Dr. Jianfeng Wang working on multi-modal large language models. In summer 2022, I worked as an Applied Scientist Intern at Amazon AWS AI working on vision-language models mentored by Dr. Hui Ding, Dr. Zhaowei Cai, and Dr. Yuting Zhang. I've also worked as a Deep Learning Research Scientist Intern at Subtle Medical developing novel Transformer-based magnetic resonance imaging (MRI) algorithms.

Email / Google Scholar / Linkedin

Research

My current research interests include large language models, vision-language models, and trustworthy AI. I lead the development of Instella, a series of fully open language models at AMD.

We are hiring full-time research scientists and research interns in all areas of generative AI. Feel free to drop me an email with your CV if interested. Research collaborations are also welcome!

News

Jan 2026: Three papers accepted to ICLR 2026. Check out ImageDoctor, XModBench, and Latent Visual Reasoning.
Jan 2026: One accepted to ICASSP 2026. Check out MOVi.
Sep 2025: One paper accepted to NeurIPS 2025 as spotlight. Check out VideoMarathon.
Aug 2025: Two papers accepted to EMNLP 2025. Check out TTT-Bench and Agent Laboratory.
July 2025: Promoted to Senior Applied Research Scientist at AMD.

Selected Works

DRIFT: Directional Reasoning Injection for Fine-Tuning MLLMs
Chao Huang, Zeliang Zhang, Jiang Liu, Ximeng Sun, Jialian Wu, Xiaodong Yu, Ze Wang, Chenliang Xu, Emad Barsoum, Zicheng Liu
ArXiv, 2025
Project Page / arXiv

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models
Xingrui Wang , Jiang Liu , Chao Huang , Xiaodong Yu , Ze Wang , Ximeng Sun , Jialian Wu , Alan Yuille , Emad Barsoum , Zicheng Liu
ICLR, 2026
Project Page / arXiv

ImageDoctor: Diagnosing Text-to-Image Generation via Grounded Image Reasoning
Yuxiang Guo*, Jiang Liu*, Ze Wang, Hao Chen, Ximeng Sun, Yang Zhao, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum
ICLR, 2026
arXiv / Project Page

Latent Visual Reasoning
Bangzheng Li, Ximeng Sun, Jiang Liu, Ze Wang, Jialian Wu, Xiaodong Yu, Hao Chen, Emad Barsoum, Muhao Chen, Zicheng Liu
ICLR, 2026
arXiv / Project Page

Learning from Online Videos at Inference Time for Computer-Use Agents
Yujian Liu, Ze Wang, Hao Chen, Ximeng Sun, Xiaodong Yu, Jialian Wu, Jiang Liu, Emad Barsoum, Zicheng Liu, Shiyu Chang
TMLR, 2026
arXiv / Code

MOVi: Training-free Text-conditioned Multi-Object Video Generation
Aimon Rahman, Jiang Liu, Ze Wang, Ximeng Sun, Jialian Wu, Xiaodong Yu, Yusheng Su, Vishal M. Patel, Zicheng Liu, Emad Barsoum
ICASSP, 2026
arXiv / code

APRIL: Active Partial Rollouts in Reinforcement Learning to Tame Long-tail Generation
Yuzhen Zhou, Jiajun Li, Yusheng Su, Gowtham Ramesh, Zilin Zhu, Xiang Long, Chenyang Zhao, Jin Pan, Xiaodong Yu, Ze Wang, Kangrui Du, Jialian Wu, Ximeng Sun, Jiang Liu, Qiaolin Yu, Hao Chen, Zicheng Liu, Emad Barsoum
ArXiv, 2025
arXiv / Code

TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games
Prakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum
EMNLP Main Conference, 2025
Project Page / arXiv / Data

Agent Laboratory: Using LLM Agents as Research Assistants
Samuel Schmidgall, Yusheng Su, Ze Wang, Ximeng Sun, Jialian Wu, Xiaodong Yu, Jiang Liu, Michael Moor, Zicheng Liu, and Emad Barsoum
EMNLP Findings, 2025
Project Page / arXiv / code / bibtex

Instella-T2I: Pushing the Limits of 1D Discrete Latent Space Image Generation
Ze Wang, Hao Chen, Benran Hu, Jiang Liu, Ximeng Sun, Jialian Wu, Yusheng Su, Xiaodong Yu, Emad Barsoum, Zicheng Liu
Tech Report, 2025
Blog / Code / arXiv / Huggingface

Instella-Math: A Fully Open Language Model with Reasoning Capability
Xiaodong Yu, Jiang Liu, Yusheng Su, Gowtham Ramesh, Zicheng Liu et al.
Tech Report, 2025
Blog / Code / Huggingface

Instella-Long: A Fully Open Language Model with Long-Context Capability
Jialian Wu, Jiang Liu, Sudhanshu Ranjan, Xiaodong Yu, Gowtham Ramesh, Prakamya Mishra, Zicheng Liu, et al.
Tech Report, 2025
Blog / Code / Huggingface

Instella: Fully open language models with stellar performance
Jiang Liu, Jialian Wu, Xiaodong Yu, Prakamya Mishra, Sudhanshu Ranjan, Zicheng Liu, et al.
Tech Report, 2025
Blog / Code / Huggingface / arXiv

Unleashing Hour-Scale Video Training for Long Video-Language Understanding
Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
NeurIPS, 2025 (Spotlight)
Project Page / arXiv / code / dataset

DIFFNAT: Improving Diffusion Image Quality Using Natural Image Statistics
Aniket Roy, Maiterya Suin, Anshul Shah, Ketul Shah, Jiang Liu, Rama Chellappa
TMLR, 2025
arXiv

KeyVID: Keyframe-Aware Video Diffusion for Audio-Synchronized Visual Animation
Xingrui Wang, Jiang Liu, Ze Wang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Yusheng Su, Alan Yuille, Zicheng Liu, Emad Barsoum
ICCV Workshop Gen4AVC, 2025
Project Page / arXiv / code

Self-Taught Agentic Long Context Understanding
Yufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum
ACL, 2025
PDF / code

SoftVQ-VAE: Efficient 1-Dimensional Continuous Tokenizer
Hao Chen, Ze Wang, Xiang Li, Ximeng Sun, Fangyi Chen, Jiang Liu, Jindong Wang, Bhiksha Raj, Zicheng Liu, Emad Barsoum
CVPR, 2025
PDF / code

AMD OLMo: Introducing the First AMD 1B Language Models
Jiang Liu, Jialian Wu, Prakamya Mishra, Zicheng Liu et al.
Tech Report, 2025
Blog / Huggingface

Instruct2Attack: Language-Guided Semantic Adversarial Attacks
Jiang Liu, Chen Wei, Yuxiang Guo, Heng Yu, Alan Yuille, Soheil Feizi, Chun Pong Lau, Rama Chellappa
Under Submission, 2024
arXiv / bibtex

DiffProtect: Generate Adversarial Examples with Diffusion Models for Facial Privacy Protection
Jiang Liu, Chun Pong Lau, Zhongliang Guo, Yuxiang Guo, Zhaoyang Wang, Rama Chellappa
Pattern Recognition, 2025
arXiv / bibtex / code

Interpolated Joint Space Adversarial Training for Robust and Generalizable Defenses
Chun Pong Lau, Jiang Liu, Hossein Souri, Wei-An Lin, Soheil Feizi, Rama Chellappa
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023
IEEE / arXiv / bibtex

One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer for Missing Data Imputation
Jiang Liu*, Srivathsa Pasumarthi*, Ben Duffy, Enhao Gong, Keshav Datta, Greg Zaharchuk (*equal contribution)
IEEE Transactions on Medical Imaging (TMI), 2023
IEEE / arXiv / bibtex

PolyFormer: Referring Image Segmentation as Sequential Polygon Generation
Jiang Liu*, Hui Ding*, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, R. Manmatha (*equal contribution)
CVPR, 2023
Project Page / arXiv / code / bibtex

Segment and Complete: Defending Object Detectors Against Adversarial Patch Attacks With Robust Patch Detection
Jiang Liu, Alexander Levine, Chun Pong Lau, Rama Chellappa, Soheil Feizi
CVPR, 2022
PDF / Supp / arXiv / bibtex / code / Apricot-Mask Dataset

Mutual Adversarial Training: Learning together is better than going alone
Jiang Liu, Chun Pong Lau, Hossein Souri, Soheil Feizi, Rama Chellappa
IEEE Transactions on Information Forensics and Security (TIFS), 2022
IEEE / arXiv / bibtex

Professional Services

Conference Reviewer:
Journal Reviewer:

Source code credit to Dr. Jon Barron.