Recuperaci贸n de informaci贸n Distribuida y en Paralelo

Escrito el 21 de octubre, 2008 a las 19:35 por David Ram铆rez.

No result贸 f谩cil encontrar informaci贸n sobre estos temas. Recomendaci贸n: Leer Modern Information Retrieval de Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Cap铆tulo 9.

Para hacer recuperaci贸n de informaci贸n en paralelo se toman grandes colecciones de documentos, se indexan para poder recuperar cada partici贸n del documento y almacenan en varios dispositivos, es decir, pueden existir un documento de 3 Gb almacenado en tres discos de 1Gb que se reconstruye a partir del index. As铆, si tenemos una gran cantidad de documentos podemos realizar varias b煤squedas simult谩neas para recuperar diversos documentos almacenados en diferentes discos, no es necesario esperar a que un proceso termine para empezar el siguiente. Para esto Google usa la indexaci贸n de la web.

Mapas conceptuales de las redes sociales que conforman el ecosistema econ贸mico en Cleveland y Silicon Valley.
Mapas conceptuales de las redes sociales que conforman el ecosistema econ贸mico en Cleveland y Silicon Valley.

Descentralizado Vs. Distribuido

En cuanto a la recuperaci贸n de informaci贸n distribuida un buen ejemplo es la blog贸sfera: Muchos nodos son capaces de producir, consumir e intercambiar informaci贸n.聽 Se crean redes distribuidas que a diferencia de las redes centralizadas o las descentralizadas nunca van a estar incomunicadas dado que siempre habr谩 un camino que las una. El problema de la recuperaci贸n de informaci贸n distribuida es su heterogeneidad: No sabemos qu茅 formato nos vamos a enfrentar, su idioma o la calidad de su contenido. Para esto se usa el pagerank, para valorar la informaci贸n y darle prioridad a la hora de recuperarla.

La diferencia entre Cleveland y Silicon Valley que mencionan en Nomada hablan sobre la paradoja del declive de Cleveland, ya que est谩 altamente jerarquizada mientras que Silicon Valey presentan una topolog铆a de red distribuida que no necesariamente obedece a las jerarqu铆as de sus nodos. Puede verse en la im谩gen que si un nodo central de Cleveland se desconecta dejar谩 por fuera de la red a varios nodos que dependen de 茅l.

[Actualizaci贸n del 2008-10-28 con comentarios de clase del profesor Leonardo Machett]

Los militares usaron una tipolog铆a de red distribuida para comunicarse, dicha red evolucion贸 a Internet, la red de redes. Imag铆nese las b煤squedas en una red centralizada, que adem谩s respond铆a a sus usuarios de manera secuencial, es decir, hasta que no se haya recuperado una solicitud de informaci贸n no se puede realizar la siguiente b铆squeda. Ahora imag铆nese que Google no podr谩 completar su solicitud hasta que se hayan respondido todas las solicitudes anteriores. 驴Cu谩nto tardar铆a?

Para poder responder varias consultas al tiempo se realiza la recuperaci贸n de informaci贸n en paralelo.

Entre las caracter铆sticas de la recuperaci贸n de informaci贸n distribuida encontramos que la informaci贸n almacenada puede ser heterog茅nea. Es decir, puede buscar cierta informaci贸n que no se encuentra en texto como el usuario lo espera, sino que su formato est谩 en audio.

Otra caracter铆stica emergente de la recuperaci贸n de informaci贸n distribuida son las difernecias entre el idioma en que se recupera la informaci贸n y la profundidad de los contenidos recuperados. Quien escribe puede ser un experto en un tema o un principiante, inclusive un embustero (como ya lo comentar茅 en un post siguiente)


Referencias

ARCHITECTURE & LANGUAGE IMPLEMENTATION. Distributed and parallel information retrieval. [en l铆nea]. [consultado 21 de oct. De 2008]. Disponible en聽 <http://www-ali.cs.umass.edu/Darch/>

BANCHERO, Santiago. Propuesta de plan de tesis [versi贸n entregada]. [en l铆nea]. [consultado 21 de oct. De 2008]. Disponible en <http://camaronbitmap.blogspot.com/2007/02/propuesta-de-plan-de-tesis-versin.html>

EXPLORADORES ELECTR脫NICOS. Topolog铆as de red. [en l铆nea]. [consultado 21 de oct. De 2008]. Disponible en <http://www.exploradoreselectronicos.net/e4pedia/Imagen:Topolog%C3%ADas_de_red.gif>

GARCIA-MOLINA, Hector y TOMASIC, Anthony. Issues in parallel information retrieval.[en l铆nea]. [consultado 21 de oct. De 2008]. Disponible en <http://www.cs.cmu.edu/~tomasic/doc/1994/TomasicGarciaDEB1994.pdf>

4 Comentarios

  1. Comentario by David Ram铆rez on 14 noviembre 2008 12:28

    Periodista 21 muestra c贸mo el modelo de informaci贸n y publicidad distribuidos funcionan para el salto de los peri贸dicos a la red

  2. Pingback by El primer a帽o de Hiperterminal.com | Hiperterminal on 22 marzo 2009 13:27

    [...] y fuimos nominados a los premios Colombia en L铆nea, me involucr茅 en Bibliotic 2009, conoc铆 el trabajo de Baeza-Yates, aprend铆 sobre Bibliotecas 2.0 y compart铆 con un mont贸n de gente que no esperaba conocer, tanto [...]

  3. Pingback by Marketing viral // Buzz marketing, Social Media Optimization (SMO) y Cibermetr铆a | Hiperterminal on 11 junio 2009 17:22

    [...] a otra fuente? Este m茅todo garantizar铆a la exahustividad en la b煤squeda de informaci贸n para recuperaci贸n de informaci贸n en sistemas distribuidos. Dicha recuperaci贸n de informaci贸n se hace especialmente 煤til si la comunidad que consume y [...]

  4. Pingback by Hiperterminal » Web 3.0 y ciencias de la web por Ricardo Baeza-Yates de Yahoo! on 30 julio 2009 22:33

    [...] de Research de Yahoo! en Barcelona a quien ya he mencionado en este blog al escribir sobre recuperaci贸n de informaci贸n paralela y distribuida. Habla sobre las ciencias de la web, tocando temas como la web sem谩ntica o web 3.0 pasando por la [...]

RSS de comentarios TrackBack Identifier URI

Deja un comentario