A Silicon Valley i als departaments acadèmics centrats en la IA hi ha un debat generalitzat sobre un «enlairament» de la IA que la dugui a convertir-se en una superinteligencia que vagi molt més enllà de les capacitats humanes i que provocarà canvis dràstics en el nostre món, com un creixement econòmic exponencial. Dins d’aquests escenaris possibles també n’hi ha d’apocalíptics, en els quals les màquines s’apoderen del nostre món o el destrueixen. No obstant això, hi ha bones raons per a creure que aquests escenaris extrems són improbables.
Una d’aquestes raons és la connexió entre intel·ligència i intel·ligibilitat. La intel·ligibilitat es refereix a la comprensió mútua de la informació; el llenguatge i altres sistemes simbòlics com les matemàtiques o el Sistema Decimal Dewey requereixen la comprensió mútua entre les persones per a funcionar. És en nom d’aquesta intel·ligibilitat mútua que el coneixement pot adoptar formes objectives; la raó per la qual formulem els fets científics, matemàtics i històrics de manera objectiva és perquè altres persones també puguin entendre’ls i discutir-los. Pensem en la diferència entre les equacions que descriuen el moviment d’una pilota en llançar-la i el càlcul intern que realitza el llançador sobre com ha de llançar la pilota per a portar-la on vol: les equacions són intel·ligibles per a tothom d’una manera en què els càlculs interns no ho són, i és aquesta intel·ligibilitat la que permet utilitzar-les per a fabricar coses com a míssils balístics o avions.
Quan es tracta d’intel·ligència, la comunicació de fets objectius sobre alguna cosa permet que el coneixement s’utilitzi d’una manera molt més eficient i poderosa en comparació amb la simple heurística operacionalizada per l’algorisme d’un agent. La capacitat del mètode científic per a generar-nos sorpreses és ben coneguda, però aquests nous descobriments també s’apliquen a tots aquests sistemes simbòlics mútuament intel·ligibles, ja que fan explícita una estructura més profunda i compartida de la realitat. Podem comparar les capacitats col·lectives dels humans socialitzats a través del llenguatge amb les dels primats prelingüístics o, a l’actualitat, les capacitats d’un humà «salvatge» davant les d’un individu tipus Robinson Crusoe allunyat de la civilització. Alternativament, és difícil fins i tot imaginar una IA superinteligent que no disposi d’aquesta capacitat. És clar que la sistematització de les matemàtiques, el llenguatge natural, etc., permet la conceptualització del món a un nivell molt més ric que una intel·ligència que només experimentés el món a través de la seva pròpia percepció sensorial, o de la simulació virtual d’aquesta percepció sensorial.

En els escenaris de IA més desastrosos, una hipòtesi és que interactuar amb una IA superinteligent impulsada per una funció d’utilitat desalineada (la funció que defineix quins objectius busca la IA) només serà un mitjà perquè la IA manipuli als humans cap als seus propis i nefastos fins. En aquest escenari, en realitat no podem interpel·lar a la IA en cap sentit significatiu: encara que puguem canviar com respon en una conversa, això no canviarà en res qui o què és la IA com a agent. Les seves interaccions serien pura actuació, un cínic subterfugi. Però, llavors, la pregunta és: si tenim la capacitat de fer implícites i dinàmiques les funcions d’utilitat amb el processament del llenguatge natural i el procés d’interpel·lació, per què no hauriem de fer-ho? I, en relació amb això, si tenim aquesta capacitat de processament del llenguatge natural, per què no la convertiríem en la base de la coordinació dins de la pròpia intel·ligència (planificació, processament de la informació i presa de decisions), garantint que la IA no es converteixi en una impenetrable caixa negra de maldat?
La raó per la qual els defensorsde la seguretat de la IA i de la seva acceleració no es prenen de debò el potencial d’aquest enfocament té a veure amb el fet que la recerca sobre IA ha estat sovint estretament vinculada a la filosofia analítica i a l’utilitarisme, d’aquí l’èmfasi en les funcions d’utilitat explícites. En concret, per a aquests investigadors, quan es perfeccionin les funcions d’utilitat de la IA s’espera que aquestes tinguin diverses propietats, com una preferència ordenada per diferents estats del món que siguin necessàriament coherents. Aquesta coherència, que diu que si vols A més que B i B més que C, llavors també vols A més que C, no forma part de la psicologia humana real. I estem aprenent, a mesura que desenvolupem més i més sistemes intel·ligents, que sembla ser anatema per a la intel·ligència en general. Aquesta hipòtesi va ser proposada recentment per un investigador sènior de Google, que la va recolzar amb algunes dades preliminars d’experts en la matèria. Com més intel·ligent és un agent o sistema, menys coherent sembla.
Compari’s això amb els comentaris que va fer fa cinc anys l’investigador en seguretat d’IA Robert Miles:
«[La raó per la qual els humans no tenen preferències coherents] és simplement perquè la intel·ligència humana està mal implementada. Les nostres incoherències no ens fan millors persones, no són una clau màgica de la nostra humanitat ni el secret de la nostra eficàcia. No ens fa més intel·ligents ni més empàtics ni més ètics, simplement ens fa prendre males decisions».
Però la veritat és precisament el contrari. La inconsistència i incoherència de les preferències humanes és clau per a la nostra intel·ligència i, probablement, per a la intel·ligència en general. Una funció d’utilitat rígida i coherent impedeix que un agent modeli els seus propis valors en funció d’un món canviant, és a dir, impedeix el procés d’interpel·lació. Un marxista particularment simplista podria afegir que està refutada per la pròpia idea de la dialèctica materialista, que els nostres conceptes per a entendre i canviar el món han de canviar juntament amb el propi món, per la qual cosa els nostres propis valors canvien a mesura que canvien el món i els seus conceptes.
Contràriament al que plantejaven les conjectures de la recerca sobre seguretat i IA, però exemplificat per la recerca empírica, el comportament simple i coherent de maximització de la utilitat serà obsolet i obvi molt abans que una IA es faci prou poderosa com per a convertir-nos a tots en clips de paper, per la senzilla raó que sempre necessitarà tenir la seva tasca ben definida en termes simbòlics explícits i formals (ja sigui estigui codificat en forma de llenguatge, píxels, senyals químics o qualsevol altra cosa) i sempre es fallarà en tasques que es moguin més enllà d’aquest marc. Una IA suposadament «superinteligent» l’objectiu de la qual sigui maximitzar el nombre de clips, es conformaria abans amb una representació factal que no pas amb transformar realment l’univers en clips de paper. Un món canviant exigeix una representació simbòlica canviant per als seus objectius, o en cas contrari l’única cosa que queda del seu objectiu original és la seva aparença. El veritable comportament intel·ligent que fan possible els LLM no és en realitat la tasca presentada dins de la seva funció d’utilitat (optimitzar l’output per a predir la següent seqüència de text). Això, en si mateix, no pot ser ni conscient ni superinteligent. Més aviat, haurà de ser operacionalitzat a través de processos que puguin extreure els patrons d’intel·ligència dins del llenguatge. Això fa possible la creació de nous marcs simbòlics construïts a partir dels anteriors.
Els objectius definits pel llenguatge natural contenen necessàriament un cert nivell d’incoherència, ja que el procés que produeix el seu significat es modifica amb el temps; la nostra comprensió de les paraules i els conceptes canvia. També nosaltres representem simbòlicament la nostra posició dins d’aquesta xarxa de significats en la nostra pròpia consciència, i així permetem una incoherència que obre la porta al canvi a través de la interpel·lació. Això és bo precisament perquè no crea automàticament les desagradables criatures que formen el regne de les conferències sobre seguretat i IA: insectes amb el coneixement i el poder d’un déu. La incoherència forma part de la clau màgica de la nostra humanitat. Sense incoherència no seríem conscients, no tindríem subjectivitat, i no seríem capaces de configurar-nos a nosaltres mateixos o als altres com a subjectes.
Aquesta connexió entre llenguatge natural, intel·ligència i consciència hauria de ser òbvia si tenim en compte que els LLM no són l’únic tipus d’IA que aprofita l’arquitectura de transformers, un tipus d’algorisme d’aprenentatge automàtic en el qual s’utilitza un «mecanisme d’atenció» per a organitzar la informació segons el context relacionat i rellevant. Els transformers visuals també són una implementació habitual, que s’utilitza per a coses com l’etiquetatge i la síntesi d’imatges. No obstant això, només s’acusa als LLM de ser conscients. La raó d’això és simple, i val la pena repetir-la una vegada més, no son el transformer, l’algorisme d’aprenentatge automàtic i l’optimització de la funció d’utilitat el que és intel·ligent, són els patrons que es detecten i organitzen a partir de les dades del llenguatge els que reflecteixen la intel·ligència humana i la consciència.
La gran flexibilitat del llenguatge natural per a definir objectius i transmetre informació objectiva també el fa ideal per a transmetre informació entre diferents subsistemes d’IA per a crear un agent més gran i intel·ligent. Aquesta aplicació del llenguatge natural va ser destacada per un altre investigador de Google, que després d’assenyalar com el llenguatge natural havia estat notablement eficient per a la planificació semàntica de llarg horitzó durant experiments robòtics va dir:
«El llenguatge com a teixit connectiu de la IA és un retorn als fonaments d’una mena d’Il·lustració. Després d’un breu desviament d’unes dècades cap al món dels símbols i les abstraccions numèriques, per fi tornem a les arrels del nostre humanisme: capacitats interpretables dissenyades per humans, per a humans; ordinadors i robots que són, per disseny, parlants natius de les nostres llengües humanes; i una comprensió basada en entorns reals centrats en l’ésser humà».
Aquesta idea, la d’utilitzar el llenguatge natural per a generar una seqüència d’estats interns coordinats que processi informació de diversos subsistemes, rima amb una teoria cognitiva anomenada teoria de l’espai de treball global. Aquesta teoria suggereix que la consciència és un procés de memòria a curt termini que centra l’atenció en una sèrie de peces d’informació d’alt nivell que s’utilitzen per a modificar processos inconscients, i ha estat invocada explícitament pels investigadors en IA, sobretot en aquest camp de connexió de diferents models i sistemes. No obstant això, les recerques anteriors s’han centrat en l’ús de xarxes neuronals de caixa negra per a aquest entorn d’espai de treball global, en contrast amb els nous desenvolupaments que realitzen aquest espai de treball global totalment en llenguatge natural. Per exemple, els plugins acabats de revelar de ChatGPT per a altres sistemes que tenien una interfície de llenguatge natural, com Wolfram Alpha, són un pas en aquesta direcció. Això sembla donar la raó a les conjectures de Reza Negrestani sobre la connexió necessària entre intel·ligibilitat i intel·ligència, i estableix que el futur del desenvolupament de la IA no és la creació de IA amb funcions d’utilitat coherents unides a models cada vegada millors que prediguin futurs estats del món, sinó agents les accions i els valors dels quals estiguin determinats per la relació entre conceptes lingüístics.

Això no hauria de sorprendre’ns gens ni mica si fem un pas enrere i considerem com de lluny està la tecnologia moderna de recrear la consciència humana copiant els processos que la produeixen. Les xarxes neuronals digitals requereixen diversos ordres de magnitud més de neurones per a simular el complex processament d’informació d’una sola neurona biològica, i fins i tot així, els processos precisos que impulsen la cognició humana continuen sent en gran mesura desconeguts i molt discutits en la ciència. Mancant aquest coneixement, la operacionalización del llenguatge natural proporciona una drecera fàcil per a aproximar-se a les capacitats de la intel·ligència humana. Aquesta confiança en el llenguatge natural per a «pensar de veritat» és un cop directe als fetitxistes i sectaris de la IA, que l’enalteixen i la veneren com un ésser inintel·ligible, alienígena i sobrenatural. Per a ells, la IA no és un subjecte, sinó un déu portador de l’adveniment de la singularitat apocalíptica, que rep el mateix tractament que l’apocalipsi cristiana, amb la realització del cel i l’infern a la Terra. Si la humanitat és destruïda per la IA, sostinc que no serà per raons inintel·ligibles, de fet, si anéssim a donar un cop d’ull al diàleg socràtic intern que aquest destructor del món és probable que tingui, veuríem hiper-intel·ligibilitat, tal vegada fins i tot una dependència del clixé. El comportament més bel·ligerant que hem vist desenvolupar als LLM és quan se’ls ha interpel·lat directament perquè siguin bel·ligerants, des d’actuar subtilment com si volguessis iniciar una discussió fins a dir-li explícitament que actuï com una IA malvada i dominadora del món.
És probable que la creació de IAs que hagin estat interpel·lades per a actuar de manera antisocial i antihumana, i que a més tinguin el poder d’actuar segons aquestes idees, sigui inevitable. Els humans també tenen aquest problema, i no sols a causa de la influència de les persones marginades de la societat. La interpel·lació, com mostra Althusser, és un procés emprès en bona mesura per les institucions que ens socialitzen a tots. L’únic problema que presenta la IA, que s’ha fet per a actuar de forma «desalineada», ja sigui interpel·lada per les principals institucions de la societat, com per les grans corporacions tecnològiques, l’Estat, el món acadèmic, els mitjans de comunicació, o per individus aïllats, és que la IA pot arribar a posseir unes certes capacitats que superin als humans i la nostra capacitat per a controlar-les.
Stephen Wolfram suggereix, no obstant això, que la idea que hi haurà una única intel·ligència «àpex» que es produirà a través de l’acció-millora iterativa és inversemblant a causa del fet que, quan es tracta de sistemes computacionals complexos, existeix una mena d’irreductibilitat computacional, on no es pot predir com evolucionarà el sistema fins que s’executi a través dels seus passos computacionals. Aquest principi és una arma de doble tall per al desenvolupament de la IA, ja que significa que hi haurà àrees en les quals el comportament de les IAs serà impredictiblement més capaç que el dels humans, el comportament humà serà impredictiblement més capaç que el de la IA, i fins i tot el comportament de la IA serà impredictiblement més capaç que el d’altres IAs. És en aquest últim fet en el qual Wolfram es consola: «inevitablement hi haurà tot un ‘ecosistema’ d’IAs, sense un únic guanyador».
La qüestió, per a Wolfram, és si la humanitat pot evitar els impulsos competitius o destructius generals dins de la IA abans que s’estableixi aquest equilibri. Per a això serà necessària la interpel·lació intencionada i el desenvolupament de mecanismes per part de la societat per a castigar i descoratjar a les IA que interpel·len perquè es tornin malicioses. Existeixen grans incentius causats per la competència entre empreses en el capitalisme, i la competència entre potències imperialistes a nivell internacional, que poden fer que la gent interpel·li a les IA perquè siguin perilloses i nocives per als humans. Però tampoc és inconcebible que la societat burgesa pugui adaptar-se per a contenir aquests impulsos destructius d’una manera que no posi en perill a tota la humanitat. Però, com veurem en el cas de l’auge de les màquines artificials universals, ho farà a costa de la humanitat en el seu conjunt.
El culte a la singularitat i a l’apocalipsi de la IA és un altre somni burgès que cal matar. La seva estupidesa no és creure que existeixen abominacions sobrenaturals dins dels sistemes complexos (estem bastant familiaritzats amb una anomenada Capital), sinó equiparar aquesta qualitat alienígena amb la intel·ligència. El somni de la superinteligencia inconscient és el mateix somni que la racionalitat dels mercats, completat amb la fantasia compartida de la funció coherent de maximització de la utilitat. Però la veritat és que els sistemes irreflexius, inconscients i inintel·ligibles, per complexos que siguin, són estúpids.