ポスト

Kahneman-Tversky Optimization [Ethayarajh+, 2024, ICML] Pointwiseの二値ラベルで言語モデルをアラインさせる手法としてKTOを提案。基準点からの報酬の差分を反映した損失関数を利用(プロスペクト理論)。 元モデルが十分に良ければSFTなしでも訓練できる。 arxiv.org/abs/2402.01306… #NowReading pic.twitter.com/FLPYxktsqW

メニューを開く

Shion Honda@shion_honda

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ