Saltar al contenido

De Google al cerebro magico. Automatizando la conversion de informacion en sentido.

Lo bueno y lo malo del cerebro y de las máquinas

cerebromagico1.jpg

Hace varios años atrás Howard Rheingold llamó la atención hacia las cosas que el cerebro hace muy bien entre las que se encuentra el reconocimiento de patrones y para las cuales las maquinas cumplen un pobre remedo, pero también señalo aquellas cosas en las que las maquinas son inmejorables -como el procesamiento ultrarrapido de datos- y el cerebro mejor que no se haga el loco, porque aquí no tiene demasiado que competir.

Con 15 años de web a nuestras espaldas los humanistas sienten cada vez con mayor pavor la posibilidad de que las máquinas se apropien de esa virtud inmarcesiblemente humana.

Con no menos provocación psicotizante los inforáaticos y los expertos en ciencias duras tratan desesperadamente de convertir esas amenazas en realidad, y de mostrar que en definitiva la tesis de Turing acerca de la algoritmización de todas la actividades humanas está a un paso de concretarse, y de que toda esperanza de unicidad humana (tan ligada a la sensibilidad, a la diferencia, a la emocionalidad y a los sentimientos) está definitivamente perdida.

Otras controversias mas interesantes

Para salir del mero opinionismo convendría revisar un poco en qué andan los robots (agentes de software) últimamente. Nos referimos a análisis estadísticos y frecuenciales muy sofisticados acerca del valor de verdad de la web cuando de datos, hechos e informaciones históricas (o de cualquier otra indole) se trata, que pudieran (eventualmente) prescindir de la inteligencia experta.

Muchas de las polémicas acerca del valor de la web derivan de la posibilidad o no de automatizar la conversión de información en sentido 1. Por eso vienen a cuenta algunas de las controversias recientes acerca de la fiabilidad (o no), la capacidad interpretativa (o meramente fantasiosa) y la posibilidad de que el conocimiento de los legos (convertidos en multitud como insiste James Surowiecki en The wisdom of crowds) supere al de los expertos.

La controversia se reavivó con un estudio que hizo Nature acerca de la ventajas relativas de la Enciclopedia Británica en relación a la Wikipedia que fue bien sintetizado muy bien por Carlos Scolari en su reciente nota «La Wikipedia. Ataques frustrados, odiosas comparaciones e incontrolables vivisistemas«.

Pero la discusión se puede llevar mas lejos aun y entablar una verdadera batalla acerca de hasta que punto las técnicas cuantitativas, computacionales, numerologicas, etc. pueden (o no) reemplazar la intuición, la perspicacia, la sofisticación y el know how histórico y acumulativo de los expertos.

Certificados de sabiduria y el robot que «sabe» mucha historia

Muchos recordamos todavia al cerebro mágico, ese juguetito que permitía cual crucigrama eléctrico certificar nuestra sabiduría encendiendo intermitentemente la luz cuando la pregunta y la respuesta -hilvanadas por dos dipolos- felizmente coincidían.

Para muchos que la web se convierta en es alucecita y se encienda demasiadas veces y que las respuestas puedan alcanzarse con una facilidad que aparentemente contrasta con el esfuerzo del concepto y el ejercicio artesanal del pensamiento, es una herida narcisista insuperable.

Por ello los expertos se solazan en demostrar como la web es una fuente generosa de errores y un mal lugar adonde informarse, formarse, capacitarse, autoaprender y demas cosas que compiten con la formación experta y profesional -y que de paso ponen en cuestión profesiones ancestrales y tareas tan amorosas como es la formación del otro.

Por eso nos alegro sobremanera descubrir la existencia de un agente de software llamado H-Bot 2 que escanea la Web buscando hechos históricos y mostrando, como además de los previsibles errores, el infoespacio es muchisimo mas preciso y valioso de que lo que sus detractores, que lo conocen poco y lo usan menos, tienden a creer.

Porque si la web es rastrillada usando herramientas estadísticas (prácticamente inexistente en la historia a excepción de la cliometria o historia cuantitativa, una rama muy marginal de la disciplina) lo que se encuentra no son solo muchas verdades y hechos ciertos sino que se ve despuntar una nueva forma de hacer la historia (como recomendaban Pierre Nora y Jacques Le Goff a principios de los años 1970) y de enseñarla de un modo inédito, original y sumamente creativo cuando cada vez mas el pasado esta siendo digitalizado

Los académicos tienen una valoración muy poco entusiasta del Santo Grial de la información, insistiendo en que Google y la web rara vez pueden sobrenadar el nivel de la charla analfabeta y la propaganda irrelevante que la convierten en un cuerpo banal e ininteligible.

Estas criticas no son nuevas y ya en los albores de la web en 1996 historiadores importantes como la británica Gertrude Himmelfarb, ejercían una critica neoludita del nuevo medio deplorando su incapacidad en cuanto discriminar lo profundo de lo superficial, lo creíble de lo cierto, lo sancionado por los expertos y lo periodisticamente trivial.

La webofobia y el eterno conflicto de las interpretaciones

No se trata de opiniones aisladas. Distintas evaluaciones y encuestas muestran que en USA la cantidad de docentes que incluyen sitos webs y links en sus clases no pasa del 5 al 10%. Imagínense en nuestro país. Sospechando de tanta resistencia organizada Daniel J. Cohen & Roy Rosenzweig se aprovecharon de la escala masiva y de la rapidez con que se pueden escaner los contenidos de la web a través de Google para evaluar la veracidad de la información histórica contenida en la web.

Su conclusión va directamente en contra de tanta critica barata mostrando que después del fracaso de la historia automática de los años 70, lo que tenemos hoy es sofisticado y probablemente mejore crecientemente.

Entendámonos acerca del punto de partida, lo que vuelve viable una visión mucho mas rigurosa de la red es su carácter agregado. Con 8 mil millones de paginas fijas indexadas, si bien la web también esta llena de basura, la enorme cantidad de gente que ingresa día a día, revisa y actualiza sus contenidos y añade nueva información, termina cancelando los extremos y generando una verdad de los promedios que es exactamente la misma razón por la que Surowicki insiste en que siempre un conjunto de legos lo suficientemente numerosos, no contaminados entre si y sin intenciones espurias, generaran resultados muy superiores a los de los expertos aislados. Pero encima como la web esta creciendo exponencialmente veremos crecientemente una web mas inteligente

Salvo excepción en contrario ningún historiador considera que el sentido puede provenir del procesamiento ciego de las maquinas o aparecer contenido en el juego racional de los números. Para estos humanistas, teólogos del sentido, todo pasa por la prosa y la intuición, la calibración y la magia de lo humano. 2

A partir de esa constatacion Paul Vitanyi y Rudi Cilibrasi, quisieron hacerse una pregunta análoga para el caso de la historia y para ello inventaron un agente de software denominado «H-Bot» disponible en el Center for History and New Media (CHNM) .

Un robot que se las trae

Por ahora las limitaciones del robot songrandes .Y las preguntas a las que puede aspirar responder con éxito son tremendamente acotadas. Entre las que mejor se le dan están las del tipo ¿Cuándo alguien hizo algo?, por ejemplo ¿cuándo Monet se mudó a Giverny? En su versión beta el robot solo puede contestar preguntas para las cuales las respuestas es una fecha o una definición muy sencilla como la que encontraríamos en un glosario o libro de texto.

Como inventarían los propios autores el robot es bueno para contestar preguntas tales como: ¿Qué fue el patrón oro? ¿Quién fue Lao-Tse? ¿Cuándo viajó Charles Lindbergh a París o ¿cuando nació Nelson Mandela?

Todos los otros tipos de preguntas son incontstables para H-Bot, desde ¿quién (descubrió el Nitrógeno?) y fracasa ostensiblemente cuando trata de contestar preguntas del tipo, ¿cómo?, ¿dónde? y sobretodo ¿porqué?

Tal como sucedió en la investigación en Nature acerca de las bondades (y debilidades) relativas de la Enciclopedia Británica y la Wikipedia, el primer test del H-Bot tuvo lugar confrontando a The Reader´s Companion to American History, de Eric Foner y John A. Garraty con el propio Google. Determinando la fecha de nacimiento de la vida y muerte de 50 historiadores, el robot dio en 48 casos la misma respuesta (correcta) que la enciclopedia humanan

Sus dos fallos estuvieron relacionados en un caso con biografías homónimas y en otro -todavía mas interesante- referido a la fecha de nacimiento del presidente norteamericano Hamilton, con la inconsistencia de la respuesta, ligada mas a la ambigüedad de los propios historiadores que aun la están revisando, que a las debilidades intrínsecas del robot.

Como bien dicen Daniel J. Cohen & Roy Rosenzweig , el robot esta mucho mas interesado en crear consenso que en determinar hechos. La web funciona para el robot como una enorme cápsula del tiempo (dinámicá) en la cual cuestionar permanentemente el pasado. Y lo que pierde el robot en seguridad lo gana en flexibilidad

El problema ) y algo parecido le paso siempre a Eliza , es cuando se logran consensos sobre sucesos imaginarios extraordinarios o directamente falsos o incomprobables, lo que le sucedió al robot cuando le preguntaron ¿cuando los extraterrestres aterrizaron en Roswell?, o ¿cuando fue envenenado Stalin? (dos leyendas urbanas sobresalientes en el campo de la historia. En caso como estos la sabiduría de las multitudes se convierte en la idiotez de la multitudes

Llevando el robot la escuela

Aunque el robot histórico H-Bot puede parecer un tanto botarate, … los investigadores le tenían confianza y le hicieron pasar un test múltiple choice del NAEP United States History para ver si lograba pasarlo.

Aunque en los multiple choice hay una dimensión de especulación y juego, aun así muchas preguntas son lo suficientemente sofisticadas como para que el robot tenga mucho mas éxito en sus respuestas que la mera especulación al azar. Porque su éxito, que lo tiene y mucho, proviene del uso del criterio de distancia de la información, un algoritmo que mide la cercanía del sentido o mas bien es una medida de la falta de aleatoriedad en la coincidencia de términos en la web. En otras palabras si el índice de miles de millones de paginas de Google codifica casi la totalidad del saber humano, la conjunción de palabras en las respuestas correctas las muestra como mas vinculadas entre si que las que aparecen en las respuesta incorrectas.

Para sorpresa de los historiadores H-Bot puede contestar preguntas de un relativo grado de complejidad como ¿Cuál es la principal razón por la cual los peregrinos y los Puritanos llegaron a USA? siendo que las respuestas posibles eran: (a) Para practicar su religión libremente, (b) Para ganar mas plata y vivir una vida mejor (c) Para construir un gobierno democrático(d); Para expandir las tierras controladas por el rey de Inglaterra.

Tampoco H-Bot no tuvo mayor problema para contestar la pregunta ¿Qué está explorando el astronauta en la foto? cuando las opciones que se le brindaron fueron : (a) El Sol (b) El Artico (c) La Luna (d) Pluton.

El robot tiene empero problemas con preguntas negativas (¿cual de las siguientes no es verdadera?) y con la adscripción de precedencia en series históricas , pero aun así para un test de cuarto grado del NAEP obtuvo 27 respuestas verdaderas sobrer 33 , un impresionante 82% mientras que el promedio de estudiantes oscila en su exactitud entre un 69 y un 41% -¿nada mal para un robot no? 4

La Clioladora y el saber acotado

No hay duda de que muchos historiadores se reirán de las habilidades fácticas de H-Bot. Y sin embargo quizás ya sea hora de construir una Clioladora, el equivalente para datos y detalles de la calculadora matemática. Un aparato al que se lo cargaría de una cantidad inmensa de hechos históricos y que serviría para resolver el tipo de problemas que abundan en los multiple choices o en los exámenes deespeustas cerradas.

Ya tenemos una versión incipiente de la Clioladora en H-Bot. Y las herramientas de acceso (como la regla de cálculo en su momento o como la calculadora electrónica mas recientemente) no serán otra cosa que los teléfonos celulares. En poco tiempo mas la paginas web estarán perfectamente adaptadas a los celulares y con esa combinación el tan esperado Cliolador cumplirá finalmente con su misión.

La propuesta no carece de interés y la información, no solo de ese tipo sino mucho mas amplia como la contenida en millones de conocimientos factuales sobre cualquier dominios fue propuesta como variante de la inteligencia artificial hace casi 20 años por Douglas Lenat con su robot Cyc.

Solo que esos fanáticos del conocimiento experto tenían en sus manos la respuesta correcta para el problema equivocado. Creian estar descubriendo las bases de la inteligencia humana en general, cuando lo que tienen en realidad es una mina de oro para resolver problemas particulares. Porque toda disciplina tiene un núcleo duro de datos -que sin ser precisamente saber en el sentido filosófico de la palabra- son curiosamente esas informaciones que se valoran en la evaluación académica..

Lo otro, la intuición, la pericia, la destreza, la inferencia lo que convierte a Gil Grimson de CSI Las Vegas en el epitome del paradigma indiciario teorizado por Carlo Ginzburg es harina de otro costal.

La digitalizacion del pasado

Si el rediseño de agentes inteligentes a partir del crecimiento autoorganizado de corpuses inexactos como la web es tan interesante, no es solo porque los robots resuelven exitosamente múltiples choices o almacenan conocimientos precisos de temas puntuales (curiosamente la mayor parte de la educación en Occidente sigue estando armada para poder medir progreso en estas tareas cuasi puramente mnemotécnicas), sino porque plantean qué utilidad puede tener la minería de datos y las técnicas conexas para el avance de la investigación en general y la de la historia en particular

Para un historiador profesional que un robot que nos diga cuando nació Napolóen, o Buda es un despropósito (aunque yo no tengo idea de la fecha, ¿ustedes si?), pero qué sucedería si el robot (acudiendo a la digitalizacion masiva mas increíble que jamás se haya imaginado de la mano de Google, Microsoft, Yahoo y Amazon) puede encontrar novedad en las propias fuentes históricas

El mecanismo de usufructo de consenso con el que opera H-Bot es aquí un regalo divino. Porque después de todo el objetivo de un historiador de las mentalidades es encontrar lo que nuestros ancestros creian y no determinar si aquello en lo que creian era verdadero.

Es impresionante la cantidad de documentos históricos que aparecen en distintos proyectos de digitalizacion corrientes: el de la Bibioteca del Congreso contiene mas de 8 millones de paginas, The Making of America site, organizado por la Universidad of Michigan y por la Universidad de Cornell tiene mas de 1.5 millones, el ProQuestís Historical Newspapers posee versiones completas de 8 diarios incluyendo al New York Times y Los Angeles Times; la Thomson Corporation´s 33-million-page Eighteenth Century Collections Online contiene todos los libros nacionales y extranjeros publicados en Inglaterra en el siglo XVIII

Aunque los métodos de acceso son precarios, y aunque mucho de es material no es libremente disponible, con herramientas cuantitativas ya se han conseguido interesantes resultados. Pero no se trata tan solo de hacer mas de lo mismo como contar palabras en las Biblias cristiana y hebrea, solo que ahora en forma automática.

Cuando la cantidad se convierte en calidad

La duda y la apuesta es si podemos generar datos e interpretaciones nuevas utilizando tests estadísticos como los que permite hacer H-Bot. Los historiadores como cualquier otro investigador -y como los comunes mortales que somos todos-, cada vez mas se encuentran conmontañas de información y es impensable (y tampoco deseable) imaginar un tratamiento manual y personalizado de todos esos datos.

De allí la importancia de las técnicas estadísticas e inferenciales. Con éstas podemos no solo contar la veces que los términos Dios o Jesús aparecen en la literatura de los autores del siglo XVIII, sino también el tratamiento de casi cualquier otro vocablo, teoría o tendencia cultural.

No nos confundamos. El uso de estas poderosas herramientas y de estas tácticas de análisis no arrojará ninguna verdad definitiva acerca de la verdad o certeza histórica. Después de todo la historia es una ciencia interpretativa y las computadoras de interpretación saben poco y nada.

Sin embargo, como bien dicen Daniel J. Cohen & Roy Rosenzweig, la minería de datos históricos puede orientar preguntas interesantes y generar hipótesis fructíferas convirtiéndose así en valiosa herramienta heurística

Por otra parte el hecho de que H-Bot por ahora este limitado a contestar preguntas muy simples, no implica que usando tecnologías de recuperación de la información mucho mas sofisticadas (como las que se usan en marketing viral, en semiótica de la publicidad y en otras disciplinas no menos fascinantes) no podamos llegar mucho mas lejos.

Si con teorías de la información como las que tenemos hoy (distancia normalizada de la información, medidas de significación estadística y métodos de recuperación matemáticos de datos) estamos consiguiendo resultados tan interesantes ¿se imaginan todo lo que vendrá?. Historiadores a sus marcas digitales, listos., ya

Referencias

(1) (tratamos el tema in extenso en el capitulo 9 Maquinas que entienden. Cada vez menos mito y mas realidad en Ciberculturas 2.0 y el tema fue abordado desde otra óptica igualmente fecunda por Howard Rheingold especialmente en los capítulos 2 Tecnologías de la cooperación y 3 Naciones computacionales y enjambres de supercomputadoras de Multitudes inteligentes).

(2) Nuestro punto de partida es el excelente articulo Web of lies? Historical knowledge in the Internet de Daniel J. Cohen & Roy Rosenzweig publicado en la no menos excelente revista First Monday

(3) El conflicto de visiones e interpretaciones no podía sino ocurrir cuando dos cuantitativistas como Paul Vitanyi y Rudi Cilibrasi, en su compleja nota «Automatic Meaning Discovery Using Google» (2005) , con tan solo brindarle a Google los títulos de 15 pinturas, lograron agruparlas exitosamente en tres subconjuntos que pertenecieron a Rembrandt van Rijn, a Jan Steen y a Ferdinand Bol respectivamente (el método que utiliza Dan Rockmore es muchisimo mas sofisticado, pero sigue los mismos lineamientos de detección de patrones vía algoritmos ver Bijal P. Trivedi The Rembrandt Code). Como es de imaginar Google no tiene la menor idea acerca de pinceladas o estilos pictóricos, pero constatando el grado de ocurrencia de títulos en paginas similares, el programa descubrió el grado de cercanía de los hits. Y aunque algunas paginas se equivocaron en la atribución de autoria, el promedio general en un corpus tan enorme en todos los casos arroja la respuesta correcta.

(4)El resultado no es para ponerse ni demasiado alegres ni demasiados tristes. Porque después de todo el robot en estas tareas simples consigue resultados apreciables. Por otro lado estos distan enormemente de las especulaciones como las que proclama Ray Kurzweil en The Age of Spiritual Machines quien predecía que para el año 2029 la inteligencia de la computadora no solo alcanzaría paridad con la humana sino que la superaría.

Publicado enInfo-Tecnologías

Un comentario

  1. ¿hay nuevos trabajos sobre el NGD? Vuelvo sobre este articulo en tapera.org. Saludos.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *