Parliamo spesso per sentito dire: “non ci vado perché ho sentito dire che la sera è pericoloso”, “ho sentito dire che fanno un brasato favoloso”, eccetera.
Anche ChatGPT parla per sentito dire, ma a differenza nostra ha sentito dire miliardi di cose e le ricorda tutte.
I suoi sentito dire sono in genere più affidabili dei sentito dire al bar, con però una grossa limitazione: ChatGPT non ha accesso ai contenuti di qualità come letteratura, saggistica, paper e documenti che si trovano sotto copyright.
Pare che in Norvegia hanno deciso di addestrare un LLM (Large Language Model) con l’intero corpus pubblicato in norvegese, e pare che tutti i titolari di diritti hanno accettato.
Brava Norvegia!
Google Books include una quarantina di milioni di libri, che ChatGPT pare non abbia letto. Dico pare perché sull’argomento non si vogliono dare dati certi, che potrebbero aggravare i problemi legali. Pare però che ChatGPT abbia letto almeno le versioni bootleg dei libri più popolari, tipo Harry Potter oppure science fiction. Ma non esiste per la lingua inglese una iniziativa organica come per la lingua norvegese, il che è un vero peccato.