Los buscadores SE (search
engines) están formados por una araña (spider) o rastreador que recupera
páginas web y enlaces (links) contenidos en las respectivas páginas web.
El control sobre la privacidad,
respecto a las páginas web a que la araña accede, puede ser establecido a
través de archivos robots.txt, que contienen directivas referidas a los
permisos de rastreo para las arañas. El rastreo puede ser general, semántico,
vertical, especializado (por región geográfica, temática, social, económico,
etc.), público, privado, etc. Esta forma de buscar información está muy lejos las búsquedas en la biblioteca,
institutos de investigación con publicaciones científicas, a veces únicas en el
país.
Durante el proceso de
rastreo la araña manda la información a un indexador. El proceso de indexación
que consiste en incluir las páginas rastreadas en una base de datos para luego
poder hacer la presentación ordenada de las mismas. Sin el indexador el proceso
de búsqueda sería muy lento.
Cuando un usuario hace
una búsqueda, el buscador SE muestra los resultados de acuerdo a cierto
criterio de relevancia o ranking de páginas (Page Rank). El algoritmo para
efectuar el ranking de las páginas es diferente para cada buscador SE. Todos
los buscadores SE funcionan con el mismo mecanismo y el ranking está basado en
el contenido del texto, antes que imágenes, videos u otros. El Page Rank que puede presentar
los datos de manera tal que los sitios web que aparezcan primero sean los más
citados estadísticamente pero no los más significativos para la búsqueda
realizada.
Se almacenaba
la información recolectada en forma de fotocopias, se encarpetaban para
encontrarlas fácilmente (indización). Todo el proceso de obtener la información
requerida era laborioso, se utilizaba mucho tiempo y había que trasladarse a
los centros donde estaba la información. Que lejos estamos de esa forma de buscar la información.
Hola Graciela, qué podríamos decir de los procesos de indización, rastreo y presentación de otras fuentes en las que buscamos información? Es interesante la introducción en esta primera entrada.
ResponderEliminar