ポスト

Kahneman-Tversky Optimization [Ethayarajh+, 2024, ICML] Pointwiseの二値ラベルで言語モデルをアラインさせる手法としてKTOを提案。基準点からの報酬の差分を反映した損失関数を利用（プロスペクト理論）。元モデルが十分に良ければSFTなしでも訓練できる。 arxiv.org/abs/2402.01306… #NowReading pic.twitter.com/FLPYxktsqW

メニューを開く

Shion Honda@shion_honda

2
8

5月8日(水) 16:52

人気ポスト

新マップ最高やんけって思ってたら急に現場仕事帰りのルート走らされて大鬱

じゃあ何すか、オレらがトヨタに納める部品を作るために設備投資したのにそっちの不正で生産停止になるからこっちの出荷が未定って事すか

確かになんで新潟県民の俺も知らないオッチャホイをダンツは挙げたんだ？って思ったらそういう事かいや普通の人は分からんて

【速報】ジョーズ、ふたたび撮影禁止になる本日6月5日以降、ジョーズの撮影がふたたび禁止になりました #USJ_now #ジョーズ

今見るとこれヤバいよな、すげぇよ

サイレンサーの底をテープでフタしてモノタロウの油掃除洗剤700mlくらいと沸騰させたお湯1Lを上から突っ込んで2日放置したらこんなんなってたこわすぎ

元の飼い主様が保護ボランティアの方に宛てた手紙が出てきました。いただいたオヤツの袋の中に入ってました。テツ、とても愛され可愛がられていたんだね。お別れの前日、元飼い主様はお見送りなさらず、写真も撮らないと気丈に振る舞っていたそう。この子は今より必ず幸せになるから。と...胸が痛い😢

高校生弁当2ヶ月目、豚しょうが焼き弁当。消えて載せ直しすみません、

船のトイレの流すボタンがコレで草

ローソン行ってみんなこれ買ってください

もっと見る

トレンド13:50更新

20位まで見る

電車遅延（在来線、私鉄、地下鉄）

北海道東北関東中部近畿中国四国九州

全国の運行情報（Yahoo!路線情報）

よく使う路線を登録すると遅延情報をお知らせ　Yahoo!リアルタイム検索アプリ

Yahoo!リアルタイム検索アプリ