Publications - Xiangxin Zhou

2025

Defeating the Training-Inference Mismatch via FP16

Penghui Qi*, Zichen Liu*, Xiangxin Zhou*, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin (* equal contribution)

Preprint. 2025

We demonstrate that simply reverting to FP16 effectively eliminates the numerical mismatch between the training and inference policies in RL for LLMs. Our results suggest that using FP16 uniformly yields more stable optimization, faster convergence, and stronger performance across diverse tasks, algorithms and frameworks.

2025

Defeating the Training-Inference Mismatch via FP16

Defeating the Training-Inference Mismatch via FP16

GEM: A Gym for Agentic LLMs

GEM: A Gym for Agentic LLMs

Variational Reasoning for Language Models

Variational Reasoning for Language Models

Reinforcing General Reasoning Without Verifiers

Reinforcing General Reasoning Without Verifiers

Riemannian Consistency Model

Riemannian Consistency Model

Decomposed Direct Preference Optimization for Structure-Based Drug Design

Decomposed Direct Preference Optimization for Structure-Based Drug Design

OS Agents: A Survey on MLLM-based Agents for Computer, Phone and Browser Use

OS Agents: A Survey on MLLM-based Agents for Computer, Phone and Browser Use

An All-Atom Generative Model for Designing Protein Complexes

An All-Atom Generative Model for Designing Protein Complexes

Modeling All-Atom Glycan Structures via Hierarchical Message Passing and Multi-Scale Pre-training

Modeling All-Atom Glycan Structures via Hierarchical Message Passing and Multi-Scale Pre-training

Designing Cyclic Peptides via Harmonic SDE with Atom-Bond Modeling

Designing Cyclic Peptides via Harmonic SDE with Atom-Bond Modeling

UniMatch: Universal Matching from Atom to Task for Few-Shot Drug Discovery

UniMatch: Universal Matching from Atom to Task for Few-Shot Drug Discovery

ProteinBench: A Holistic Evaluation of Protein Foundation Models

ProteinBench: A Holistic Evaluation of Protein Foundation Models

Group Ligands Docking to Protein Pockets

Group Ligands Docking to Protein Pockets

Integrating Protein Dynamics into Structure-Based Drug Design via Full-Atom Stochastic Flows

Integrating Protein Dynamics into Structure-Based Drug Design via Full-Atom Stochastic Flows

2024

Binding-Adaptive Diffusion Models for Structure-Based Drug Design

Binding-Adaptive Diffusion Models for Structure-Based Drug Design

Reprogramming Pretrained Target-Specific Diffusion Models for Dual-Target Drug Design

Reprogramming Pretrained Target-Specific Diffusion Models for Dual-Target Drug Design

Antigen-Specific Antibody Design via Direct Energy-based Preference Optimization

Antigen-Specific Antibody Design via Direct Energy-based Preference Optimization

Interaction-based Retrieval-augmented Diffusion Models for Protein-specific 3D Molecule Generation

Interaction-based Retrieval-augmented Diffusion Models for Protein-specific 3D Molecule Generation

Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process

Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process

Protein-Ligand Interaction Prior for Binding-aware 3D Molecule Diffusion Models

Protein-Ligand Interaction Prior for Binding-aware 3D Molecule Diffusion Models

Controllable and Decomposed Diffusion Models for Structure-based Molecular Optimization

Controllable and Decomposed Diffusion Models for Structure-based Molecular Optimization

2023

GSLB: The Graph Structure Learning Benchmark

GSLB: The Graph Structure Learning Benchmark

DecompDiff: Diffusion Models with Decomposed Priors for Structure-Based Drug Design

DecompDiff: Diffusion Models with Decomposed Priors for Structure-Based Drug Design

A Study of Using Synthetic Data for Effective Association Knowledge Learning

A Study of Using Synthetic Data for Effective Association Knowledge Learning

2021

Semantics-Aware Hidden Markov Model for Human Mobility

Semantics-Aware Hidden Markov Model for Human Mobility

2019

Global Sparse Momentum SGD for Pruning Very Deep Neural Networks

Global Sparse Momentum SGD for Pruning Very Deep Neural Networks

Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection

Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection