Harvard desarrolla algoritmo para detectar patrones ocultos en conjuntos de datos inmensos Investigadores de la Universidad de Harvard y el Instituto Broad han desarrollado el algoritmo MINE, super algoritmo si quieren, ya que se trata de una herramienta que puede hacer frente a cantidades de datos a las que hasta ahora ningún software había llegado. Para que nos hagamos una idea del trabajo presentado, las herramientas estadísticas de MINE pueden desentrañar múltiples patrones ocultos entre la información referente a la salud en todo el mundo, las estadísticas de una temporada entera de la NBA y todos los datos sobre la evolución de las bacterias en el intestino humano. Todo esto y mucho más es MINE.
El ejemplo lo dieron ellos mismos para que la comunidad se hiciera una idea de lo conseguido. La idea partió de la base de que nos movemos en un mundo en el que los datos son cada vez más grandes, vivimos en una sociedad marcada por la ingente información diaria, información a la que evidentemente serían necesarias cientos de miles de personas para poder tener un análisis.
Incluso los ordenadores más sofisticados en la actualidad, los mismos que son capaces de buscar conjuntos de datos a gran velocidad, se quedan cortos en el momento en el que los investigadores intentan detectar de manera imparcial los diferentes tipos de patrones en grandes colecciones de datos.
Y aquí aparece MINE. Según cuenta Pardis Sabeti, profesor de Harvard:
Existen grandes conjuntos de datos que queremos explotar, y dentro de los mismos, muchas relaciones que queremos entender. El ojo humano es la mejor forma de encontrar estas relaciones pero estos conjuntos de datos son tan grandes que no lo podemos hacer. Este nuevo conjunto de herramientas noas da la posibilidad de recopilar y relacionarlos.
Para poner a prueba MINE, los investigadores probaron las herramientas de análisis en una gran cantidad de datos incluyendo una base de millones de microorganismos que viven en el intestino. Compararon más de 22 millones encontrando unos pocos cientos de patrones de interés que jamás se habían encontrado antes.
Cuentan que MINE podía detectar una amplia gama de patrones para posteriormente caracterizarlos de acuerdo a una serie de parámetros diferentes, según lo que estuvieran investigando. De esta forma pueden conseguir patrones específicos dentro de un conjunto inmenso de datos.
El objetivo de esta estadística es tomar los datos de una gran cantidad de diferentes dimensiones y las posibles correlaciones seleccionando los mejores. Lo vemos como una herramienta de exploración que puede encontrar patrones y clasificarlos de forma equitativa. Lo que es interesante acerca de nuestro método es que se busca cualquier tipo de estructura clara, dentro de los datos, tratando de encontrar relación en todos ellos.
Esta capacidad de búsqueda de patrones de manera equitativa ofrece un potencial de exploración tremenda en términos de la búsqueda de patrones sin tener que saber de antemano qué buscar.
Es decir, que con MINE, los investigadores pueden generar nuevas ideas y conexiones que nunca antes se habían dado. Así lo explica Yakir Reshef, coautor de la investigación:
Nuestra herramienta es un generador de hipótesis. Mediante la exploración de los datos podemos obtener ideas de las hipótesis que nunca se nos hubieran ocurrido.
Finalmente, el equipo que ha desarrollado MINE habla de un futuro de la herramienta en la que podemos implementarlo para llevar a cabo todo tipo de análisis como los examinados. Análisis que podrán mejorar o ayudar con los patrones que se den en el campo de la salud, biología o en el campo económico.