Implement RLHF DPO (Direct Preference Optimization) training#1403

Open

BitcrushedHeart wants to merge 16 commits intoNerogar:masterfrom

BitcrushedHeart:RLHF

Commits on Mar 29, 2026

Implement RLHF DPO (Direct Preference Optimization) training
BitcrushedHeart
committed

Commits on Apr 1, 2026

DPO Pair Tool: fix image scaling and add expandable prompt display
BitcrushedHeart
committed

Commits on Apr 2, 2026

fix: address code review issues in RLHF DPO implementation
BitcrushedHeart
committed

Commits on Apr 3, 2026

fix: handle UTF-16LE metadata in WebP files for DPO prompt matching
BitcrushedHeart
committed

Commits on Apr 4, 2026

Commits on Apr 5, 2026

Commits on Apr 6, 2026

feat: DPO patience tiebreaker, pair review window, and focus fixes
BitcrushedHeart
committed

Commits on Apr 9, 2026

Handle empty prompts as UNCONDITIONAL in DPO Curation Tool
BitcrushedHeart
committed

Commits on Apr 12, 2026

DPO tool: fast PNG scanning, multiline caption fix, orphan pruning
BitcrushedHeart
committed

Commits on Apr 14, 2026

Commits on Apr 19, 2026

fix(dpo): dedup keeps latest mtime instead of first seen
BitcrushedHeart
committed