martes, 20 de octubre de 2015

Web profunda o academica



Web superficial y web profunda.

La web superficial, es la información que encontramos en Internet utilizando los buscadores tradicionales y solo es una pequeña parte de la información que circula por la red. El resto de la información es lo que se denomina web invisible o profunda.

Web superficial o visible 
Todas las webs a las que los buscadores convencionales pueden indexar, forman parte de la web superficial o visible y basta con preguntar a dichos buscadores para tener toda la información. 

Las características principales de los sitios web visibles son: 

  •   La información no está contenida en bases de datos 
  • Es de libre acceso 
  • No se requiere registrarse en la web para acceder a la información 
  • La mayor parte de dichas webs son estáticas, tienen una URL fija y accesible desde otro enlace
    

Web profunda o invisible
Se denomina web invisible a toda la información que hay en Internet y que no se obtiene con
los buscadores convencionales. Parte de la información es “invisible” a los buscadores convencionales, pues los resultados se generan en la contestación a una pregunta directamente mediante páginas dinámicas(ASP, PHP,etc.) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante  (temporales) desapareciendo una vez cerrada la consulta.
Sherman y Price identifican cuatro tipos de contenidos ocultos
Ø  Web opaca
Ø  Web privada
Ø  Web propietaria
Ø  Web realmente invisible
Web opaca
·         La  Web opaca está compuesta por archivos que, si bien podrían estar incluidos en los  índices de los buscadores, no lo  están por alguno de los siguientes motivos 

·         Extensión de la indización: a veces, por economía, no todas las páginas de un sitio  son  indizadas en los buscadores.

·         Frecuencia de la indización: los buscadores no poseen la capacidad de indizar todas las páginas existentes; a diario se agregan y modifican  muchas y la indización no se realiza  al ritmo que permita incluirlas a todas.


·         Número máximo o de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados, generalmente limitan el número de documentos que se muestran (entre 200 y 1000).

·         URL desconectadas: las generaciones más recientes de buscadores, presentan los  documentos por relevancia basada en el número de veces que aparecen referenciados  en otros. Si un documento no tiene un  link a él, desde otro documento, será imposible que la página sea encontrada, pues no se encuentra indizada.
 


Web privada
Web privada consiste en las páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos:
·         Las páginas están protegidas por contraseñas.
·         Contienen un archivo “robots.txt” para evitar ser indizadas.
·         Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.

Este segmento de la Web contiene, en general, documentos excluidos deliberadamente por su falta de utilidad. Ya que son los dueños de la información que contienen, los que deciden que no se encuentre disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear es a barrera. 
Web propietaria
La Web propietaria incluye aquellas páginas en las que es necesario registrarse para tener  acceso al contenido, ya sea de forma gratuita o arancelada
Web realmente invisible
La Web realmente invisible se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos
, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.



Texto sacado del MOOC "ENCONTRANDO TESOROS EN LA RED"-UTN-INSPT-MIRIADAX


No hay comentarios:

Publicar un comentario