viernes, 21 de septiembre de 2012

Buscadores SE (Search Engine)



Los buscadores SE (search engines) están formados por una araña (spider) o rastreador que recupera páginas web y enlaces (links) contenidos en las respectivas páginas web.
El control sobre la privacidad, respecto a las páginas web a que la araña accede, puede ser establecido a través de archivos robots.txt, que contienen directivas referidas a los permisos de rastreo para las arañas. El rastreo puede ser general, semántico, vertical, especializado (por región geográfica, temática, social, económico, etc.), público, privado, etc. Esta forma de buscar información está muy lejos las búsquedas en la biblioteca, institutos de investigación con publicaciones científicas, a veces únicas en el país.

Durante el proceso de rastreo la araña manda la información a un indexador. El proceso de indexación que consiste en incluir las páginas rastreadas en una base de datos para luego poder hacer la presentación ordenada de las mismas. Sin el indexador el proceso de búsqueda sería muy lento.

Cuando un usuario hace una búsqueda, el buscador SE muestra los resultados de acuerdo a cierto criterio de relevancia o ranking de páginas (Page Rank). El algoritmo para efectuar el ranking de las páginas es diferente para cada buscador SE. Todos los buscadores SE funcionan con el mismo mecanismo y el ranking está basado en el contenido del texto, antes que imágenes, videos u otros. El Page Rank que puede presentar los datos de manera tal que los sitios web que aparezcan primero sean los más citados estadísticamente pero no los más significativos para la búsqueda realizada.


Se almacenaba la información recolectada en forma de fotocopias, se encarpetaban para encontrarlas fácilmente (indización). Todo el proceso de obtener la información requerida era laborioso, se utilizaba mucho tiempo y había que trasladarse a los centros donde estaba la información. Que lejos estamos de esa forma de buscar la información.


"La educación Prohibida"