ウェブ上にある約60億の文章を対象とした研究によると、それらの約半分が複数の言語に翻訳されており、その多くは品質が低い。そのような翻訳文がさらに他の言語に翻訳されると、品質は一層低下する。機械翻訳によって作成されたと見られる低品質な翻訳は、ウェブから集められたモノリンガルおよびバイリンガルのデータを使用した多言語の大規模言語モデルなどのトレーニングモデルに、深刻な影響を与えると研究者は指摘する。例えば、ウェブ上にデータが少ないアフリカ等の地域の希少言語については、文法的に正確で信頼性の高い大規模言語モデルを構築するのが困難となることが懸念されている。