Amazon社は、機械翻訳のジェンダー評価ベンチマーク「MT-GenEval」を新たにリリースした。一般的に用いられる人工的に構築されたジェンダーバイアス(社会的・文化的性差に基づく偏見)の評価セットに対し、MT-GenEvalは現実世界のデータに基づいて構築された、英語から8つの言語への翻訳を含む大規模な評価セットである。同社の研究者によると、機械翻訳システムはジェンダーバイアスによる翻訳ミスを起こしやすいが、MT-GenEvalは出力される訳文にジェンダーが正確に反映されるように十分にバランスを考慮し開発されている。