El proyecto Alexandria de Microsoft analiza los documentos mediante algoritmos de aprendizaje no supervisado

0
153

En 2014, Microsoft puso en marcha el proyecto Alexandria, un programa de investigación dentro de su división de investigación de Cambridge. Basándose en un trabajo de investigación previo en la minería del conocimiento mediante programación probabilística, el objetivo de Alexandria era construir una base de conocimientos completa a partir de un conjunto de documentos de forma automática.

Dicho de otra manera, el equipo de Alexandria se encarga de identificar temas y metadatos, empleando la inteligencia artificial o IA para analizar el contenido de los documentos en los conjuntos de datos. Con el tiempo, este software se trasladó al ámbito empresarial.

La tecnología de Alexandria en la práctica

Fig3 Alexandria

Fig3 Alexandria

La tecnología de Alexandria impulsa el recientemente anunciado Microsoft Viva Topics, que organiza automáticamente grandes cantidades de contenido en un programa. Viva Topics para el ámbito empresarial es un apartado en el que se clasifican por temas las áreas de conocimiento de la empresa.

Microsoft Viva es la plataforma para centralizar el día a día del teletrabajador: desde las comunicaciones hasta la formación

En una entrevista realizada por Venture Beat a diferentes directivos de Microsoft encargados de este proyecto, una de las afirmaciones más destacadas indica que el proceso de análisis sintáctico de Alexandria requiere identificar qué partes de los fragmentos de texto corresponden a valores de propiedad específicos.

Para estas tareas Alexandria realiza un aprendizaje no supervisado para crear plantillas a partir de texto estructurado y no estructurado, y el modelo puede trabajar con miles de plantillas.

Los algoritmos de Aprendizaje no Supervisados infieren patrones de un conjunto de datos sin referencia a resultados conocidos o etiquetados. A diferencia del Aprendizaje Supervisado, los métodos de Aprendizaje no Supervisado no se pueden aplicar directamente a una clasificación. Por su parte, el aprendizaje sin supervisión puede utilizarse para descubrir la estructura subyacente de los datos.

Alexandria se encarga de extraer temas y de la vinculación de temas. La extracción de temas implica el descubrimiento de temas en los documentos y el mantenimiento y conservación de esos temas a medida que los documentos cambian. La vinculación de temas reúne los conocimientos de una serie de fuentes en una base de conocimientos unificada. Hace unos años, Microsoft trasladó esto a la empresa, trabajando con datos como documentos, mensajes y correos electrónicos.

El uso de la programación probabilística

Figure1 Alexandriablog

Figure1 Alexandriablog

Alexandria realiza la extracción y vinculación de temas mediante un enfoque de aprendizaje automático denominado programación probabilística, que describe el proceso por el que los temas y sus propiedades se mencionan en los documentos. El mismo programa puede ejecutarse hacia atrás para extraer temas de los documentos.

Según sus portavoces, este enfoque permite que la información sobre la tarea se incluye en el propio programa probabilístico, en lugar de los datos etiquetados. Esto permite que el proceso se ejecute sin supervisión, lo que significa que puede realizar estas tareas de forma automática, sin ninguna intervención humana.

Otra de sus características implementadas con el tiempo es que cuenta con un algoritmo para determinar con seguridad si la información sacada de distintas fuentes se refiere a la misma entidad.