Fine-tuning LLMs on Human Feedback (RLHF + DPO)

Shaw Talebi via YouTube Direct link

Intro - 0:00

1

of 11

1 of 11

Intro - 0:00

Class Central Classrooms beta

YouTube videos curated by Class Central.

Classroom Contents

Fine-tuning LLMs on Human Feedback (RLHF + DPO)