SPÄRCK JONES, Karen
Descripción
Karen Spärck Jones [Huddersfield (Yorkshire, Reino Unido), 1935 – Willianghan (Cambridge, Reino Unido), 2007]. Científica británica especializada en lingüística informática. Pionera en recuperación de información. Introdujo la tecnología de IDF (Frecuencia Inversa del Documento para un Término), utilizada en la mayoría de los motores de búsqueda.
Biografía
Karen Ida Boalth Spärck Jones nació el 26 de agosto de 1935 en Huddersfield (Yorkshire).
Sus padres fueron Alfred Owes Jones, profesor de química, y su madre Ida Spärck, antigua funcionaria noruega, que se exilió al Reino Unido tras la invasión de su país por las tropas nazis en 1940.
De niña Karen Spärck Jones asistió a la escuela local y de 1953 a 1956 estudió Historia y un curso de Filosofía en el Girton College de la Universidad de Cambridge. Allí conoció a Margaret Masterman, jefa de la Unidad de Investigación del Lenguaje, quien estimuló su interés por el tema.
A finales de los '50, Spärck Jones comenzó a trabajar en el uso de los tesauros para el procesamiento del lenguaje natural en la Unidad de Investigación del Lenguaje y Sistemas de Información de Cambridge. Investigó el Proceso del Lenguaje Natural y de Recuperación de la Información. Colaboró con Roger Needham, quien en 1958 pasó a ser su marido, renunciando ambos a tener descendencia. En 1961 compraron su primer velero para ejercitar su otra pasión: la navegación. Más tarde restauraron un viejo cúter de 1872, con el que participaban en regatas en la costa este de Inglaterra.
Karen Spärck Jones se doctoró en 1964 con la tesis Synonymy and Semantic Classification (Sinonimia y Clasificación Semántica), que se adelantó a su tiempo en la exploración de las técnicas simbólicas y estadísticas combinadas para el procesamiento del lenguaje natural. Su tesis está considerada como una ponencia fundamental en el campo del procesamiento del lenguaje natural.
Continuó investigando mediante becas obtenidas de la Royal Society, de la British Library y de General Electric Company, entre otras.
Karen Spärck desarrolló un indicador, que se denominaría Indización Ponderada o por Pesos, capaz de hallar la importancia informativa de una palabra para un documento. Esta tecnología identifica la importancia de un término dependiendo del número de veces que aparezca en el documento en relación con el resto de términos del mismo. Conocida como ITF (Inverse Term Frecuency o Frecuencia Inversa del Término).
En 1972 publicó un artículo seminal en el Journal of Documentation presentando el concepto de IDF (Inverse Document Frecuency o Frecuencia Inversa del Documento) como tecnología clave para la recuperación de la información. En un raro planteamiento, mediante la combinación de la estadística con la lingüística, estableció fórmulas que encarnan los principios que permiten que los ordenadores puedan interpretar las relaciones entre palabras Actualmente IDF es utilizada por la mayoría de los motores de búsqueda como parte del esquema estadístico 'tf-idf' (term frequency – inverse document frequency) que muestra el peso de un determinado término en un documento. Este esquema se emplea en más del 80% de las bibliotecas digitales.
En 1974 Jones se incorporó al Laboratorio de Informática en la Universidad de Cambridge, donde en 1999 fue nombrada profesora de Ordenadores e Información. El 30 de septiembre de 2002 se jubiló, aunque siguió trabajando a tiempo completo en el Laboratorio hasta que la enfermedad se lo impidió.
En la década de 1980 comenzó a trabajar en los primeros sistemas de reconocimiento mediante voz. En 1982 el gobierno británico convocó a Karen Spärck Jones a que participase en el Programa Alvey, una iniciativa para fomentar la investigación de los Sistemas Basados en el Conocimiento Inteligente. Este programa resultó de gran impacto para la Inteligencia Artificial.
En 1981 publicó Information retrieval experiment.
En 1988 Spärck Jones recibió el Premio Gerard Stalton
Desde la aparición, a principios de los años 90, de Internet y de la World Wide Web, su trabajo se hizo mucho más visible, ya que su tecnología había establecido las bases para los motores de búsqueda, como Google.
En 1993, escribió en colaboración con Julia R. Galliers, un libro de texto seminal con el título Evaluating Natural Language Processing Systems.
En 1994 fue admitida como miembro del Comité de los Programas TREC (DARPA/NIST Text Retrieval Conferences), diseñados para el fomento de la investigación sobre la recuperación de la información en textos muy extensos. Ha sido una figura muy relevante en la evaluation community y ha participado en el establecimiento del Procesamiento del Lenguaje Natural en Estados Unidos y otros países.
También en 1994 accedió a la presidencia de la Asociación de Lingüística Informática y en 1995 fue elegida Miembro de la Academia Británica, cuya vicepresidencia ejercería de 2000 a 2002.
En 1996, junto a Stephen E. Robertson, desarrolló el modelo probabilístico de recuperación de la información 'Binary Independent Retrieval'("Recuperación binaria independiente").
Impartió un doctorado en Cambridge desde 1999 sobre el procesamiento del lenguaje y el lenguaje informático.
En 2002 le concedieron el premio ASIST al Mérito Académico.
Entre sus últimos trabajos se encuentran la recuperación de documentos: aplicaciones de discursos; cuestionarios de bases de datos; modelos de agentes y usuarios; evaluaciones de sistemas de lenguaje e información, etc. Solía proclamar en sus conferencias, ante audiencias masculina y femenina, que "la informática es demasiado importante para dejársela a los hombres".
En 2007, cuando ya estaba enferma, recibió el Premio Allen Newell de la ACM-AAAI y la Medalla Lovelace.
Karen Spärck Jones falleció de cáncer el 4 de abril en el año 2007, a los 71 años de edad, en Willianghan (Cambridge).
Un año después el Grupo Especialista de Recuperación de la Información de la Sociedad Británica de Informática (BCS IRSG) creó un premio para conmemorar los logros de Karen Spärck Jones.
Karen Spärck Jones recibió también el premio de la ACL, la asociación internacional más prestigiosa en Lingüística computacional, a la trayectoria de una vida investigadora.
Más información
Karen Ida Boalth Spärck Jones nació el 26 de agosto de 1935 en Huddersfield (Yorkshire).
Sus padres fueron Alfred Owes Jones, profesor de química, y su madre Ida Spärck, antigua funcionaria noruega, que se exilió al Reino Unido tras la invasión de su país por las tropas nazis en 1940.
De niña Karen Spärck Jones asistió a la escuela local y de 1953 a 1956 estudió Historia y un curso de Filosofía en el Girton College de la Universidad de Cambridge. Allí conoció a Margaret Masterman, jefa de la Unidad de Investigación del Lenguaje, quien estimuló su interés por el tema.
A finales de los '50, Spärck Jones comenzó a trabajar en el uso de los tesauros para el procesamiento del lenguaje natural en la Unidad de Investigación del Lenguaje y Sistemas de Información de Cambridge. Investigó el Proceso del Lenguaje Natural y de Recuperación de la Información. Colaboró con Roger Needham, quien en 1958 pasó a ser su marido, renunciando ambos a tener descendencia. En 1961 compraron su primer velero para ejercitar su otra pasión: la navegación. Más tarde restauraron un viejo cúter de 1872, con el que participaban en regatas en la costa este de Inglaterra.
Karen Spärck Jones se doctoró en 1964 con la tesis Synonymy and Semantic Classification (Sinonimia y Clasificación Semántica), que se adelantó a su tiempo en la exploración de las técnicas simbólicas y estadísticas combinadas para el procesamiento del lenguaje natural. Su tesis está considerada como una ponencia fundamental en el campo del procesamiento del lenguaje natural.
Continuó investigando mediante becas obtenidas de la Royal Society, de la British Library y de General Electric Company, entre otras.
Karen Spärck desarrolló un indicador, que se denominaría Indización Ponderada o por Pesos, capaz de hallar la importancia informativa de una palabra para un documento. Esta tecnología identifica la importancia de un término dependiendo del número de veces que aparezca en el documento en relación con el resto de términos del mismo. Conocida como ITF (Inverse Term Frecuency o Frecuencia Inversa del Término).
En 1972 publicó un artículo seminal en el Journal of Documentation presentando el concepto de IDF (Inverse Document Frecuency o Frecuencia Inversa del Documento) como tecnología clave para la recuperación de la información. En un raro planteamiento, mediante la combinación de la estadística con la lingüística, estableció fórmulas que encarnan los principios que permiten que los ordenadores puedan interpretar las relaciones entre palabras Actualmente IDF es utilizada por la mayoría de los motores de búsqueda como parte del esquema estadístico 'tf-idf' (term frequency – inverse document frequency) que muestra el peso de un determinado término en un documento. Este esquema se emplea en más del 80% de las bibliotecas digitales.
En 1974 Jones se incorporó al Laboratorio de Informática en la Universidad de Cambridge, donde en 1999 fue nombrada profesora de Ordenadores e Información. El 30 de septiembre de 2002 se jubiló, aunque siguió trabajando a tiempo completo en el Laboratorio hasta que la enfermedad se lo impidió.
En la década de 1980 comenzó a trabajar en los primeros sistemas de reconocimiento mediante voz. En 1982 el gobierno británico convocó a Karen Spärck Jones a que participase en el Programa Alvey, una iniciativa para fomentar la investigación de los Sistemas Basados en el Conocimiento Inteligente. Este programa resultó de gran impacto para la Inteligencia Artificial.
En 1981 publicó Information retrieval experiment.
En 1988 Spärck Jones recibió el Premio Gerard Stalton
Desde la aparición, a principios de los años 90, de Internet y de la World Wide Web, su trabajo se hizo mucho más visible, ya que su tecnología había establecido las bases para los motores de búsqueda, como Google.
En 1993, escribió en colaboración con Julia R. Galliers, un libro de texto seminal con el título Evaluating Natural Language Processing Systems.
En 1994 fue admitida como miembro del Comité de los Programas TREC (DARPA/NIST Text Retrieval Conferences), diseñados para el fomento de la investigación sobre la recuperación de la información en textos muy extensos. Ha sido una figura muy relevante en la evaluation community y ha participado en el establecimiento del Procesamiento del Lenguaje Natural en Estados Unidos y otros países.
También en 1994 accedió a la presidencia de la Asociación de Lingüística Informática y en 1995 fue elegida Miembro de la Academia Británica, cuya vicepresidencia ejercería de 2000 a 2002.
En 1996, junto a Stephen E. Robertson, desarrolló el modelo probabilístico de recuperación de la información 'Binary Independent Retrieval'("Recuperación binaria independiente").
Impartió un doctorado en Cambridge desde 1999 sobre el procesamiento del lenguaje y el lenguaje informático.
En 2002 le concedieron el premio ASIST al Mérito Académico.
Entre sus últimos trabajos se encuentran la recuperación de documentos: aplicaciones de discursos; cuestionarios de bases de datos; modelos de agentes y usuarios; evaluaciones de sistemas de lenguaje e información, etc. Solía proclamar en sus conferencias, ante audiencias masculina y femenina, que "la informática es demasiado importante para dejársela a los hombres".
En 2007, cuando ya estaba enferma, recibió el Premio Allen Newell de la ACM-AAAI y la Medalla Lovelace.
Karen Spärck Jones falleció de cáncer el 4 de abril en el año 2007, a los 71 años de edad, en Willianghan (Cambridge).
Un año después el Grupo Especialista de Recuperación de la Información de la Sociedad Británica de Informática (BCS IRSG) creó un premio para conmemorar los logros de Karen Spärck Jones.
Karen Spärck Jones recibió también el premio de la ACL, la asociación internacional más prestigiosa en Lingüística computacional, a la trayectoria de una vida investigadora.
Más información
Vídeos
June, 1994. Finding the Information Wood in Natural Language Trees, a lecture by Karen Jones Spärck. This lecture discusses questions about retrieving information. How do we identify, extract, condense, or otherwise transform text content?