Una investigació de The New York Times ha analitzat el funcionament dels resums generats per intel·ligència artificial al cercador de Google i conclou que, malgrat assolir una taxa d’encert propera al 91%, el volum de consultes processades per la companyia provoca que el sistema generi milions de respostes incorrectes cada hora en l’espai més visible de la pàgina de resultats.
L’estudi es basa en una anàlisi encarregada a l’empresa Oumi, que va avaluar més de 4.300 recerques mitjançant el test SimpleQA, una eina habitual per mesurar la precisió de sistemes d’intel·ligència artificial, i va comparar dos versions del model de Google, observant una millora des del 85% d’encert amb Gemini 2 fins el 91% amb Gemini 3 després de la seva actualització.
La investigació identifica un problema estructural en la qualitat de les respostes: més de la meitat de les considerades correctes no estan plenament recolzades per les fonts que citen, el que dificulta la seva verificació i redueix la fiabilitat del sistema fins i tot quan la dada principal és encertada.
L’anàlisi també assenyala que els resums combinen continguts procedents de fonts de diferent qualitat, incloent plataformes com Facebook i Reddit entre les més citades, amb més presència en els casos en els quals les respostes són incorrectes, la qual cosa introdueix inconsistències en un producte que Google situa per sobre dels enllaços tradicionals.
La investigació recull a més exemples en els quals el sistema genera respostes errònies a partir de fonts vàlides o afegeix informació incorrecta a dades correctes, el que posa en relleu limitacions en la interpretació de continguts i en la construcció de les respostes.
De la seva banda, Google ha qüestionat la validesa de l’anàlisi i afirma que la metodologia feta servir no reflecteix el comportament real de les recerques dels usuaris, encara que reconeix que aquests sistemes poden cometre errors i inclou advertiments perquè es contrasti la informació.