機械翻訳の訓練に用いる参照用翻訳データは必ずしも完璧ではないと主張するジョンズホプキンズ大学とMicrosoftの機械翻訳の研究者が、新たなファインチューニング手法であるContrastive Preference Optimization(CPO:対照選好最適化)を発表した。ほぼ完璧だが不備も含まれる翻訳文を言語モデルが生成しないよう、この手法では訳文データに対しスコアの高低によってラベル付けを行って使用する。
機械翻訳の訓練に用いる参照用翻訳データは必ずしも完璧ではないと主張するジョンズホプキンズ大学とMicrosoftの機械翻訳の研究者が、新たなファインチューニング手法であるContrastive Preference Optimization(CPO:対照選好最適化)を発表した。ほぼ完璧だが不備も含まれる翻訳文を言語モデルが生成しないよう、この手法では訳文データに対しスコアの高低によってラベル付けを行って使用する。