viernes, 19 de junio de 2015

DEEP WEB (web profunda)

¡¡Hola a tod@s!!

Hoy os traigo algo superinteresante, algo que parece sacado de una película de espías. Si pensabais que lo sabíais todo sobre la búsqueda en Internet, hoy os presento: LA WEB PROFUNDA.

Internet se ve dividido en dos ramas, la web superficial y la web profunda. La web superficial se compone de páginas estáticas, mientras que la web profunda está compuesta por páginas dinámicas. Para que me entendáis: las páginas estáticas no dependen de una base de datos para desplegar su contenido y, básicamente, son archivos de contenidos HTML. En cambio las páginas dinámicas se crean como resultado de una búsqueda en una base de datos y sus contenidos se proporcionan sólo cuando lo solicite un usuario autorizado.


Se prevé que alrededor del 95% de Internet es web profunda. En 2010 se estimó que la información que se encuentra en la web profunda es de 7500 terabytes.


La principal causa de la existencia de la web profunda es la imposibilidad de los motores de búsqueda (Google, Yahoo, Bing,...) de encontrar o indexar ggran parte de la información existente en Internet. Pero por mucho que nos duela, aunque los motores de búsqueda pudieran indexar la información de la web profunda, esto no significaría que ésta dejara de existir; ya que siempre existirán las páginas privadas, esas que para acceder a la información debes estar registrado como usuario.

Sherman y Price identifican cuatro tipos de contenidos invisibles en la web: la web opaca (the opaque web), la web privada (the private web), la web propietaria (the proprietary web) y la web realmente invisible (the truly invisible web).

La Web opaca está compuesta por archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:

  • Extensión de la indixación
  • Frecuencia de la indixación
  • Número máximo de resultados visibles
  • URL desconectadas

La web privada consiste en las páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos:

  • Las páginas están protegidas por contraseñas
  • Contienen un archivo “robots.txt” para evitar ser indizadas
  • Contienen un campo “noindex” para evitar que el buscador pueda indixar la parte correspondiente al cuerpo de la página

La web propietaria incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o de pago.

La Web realmente invisible se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente.

Pero a pesar de todo esto, los motores de búsqueda comerciales han comenzado a explorar métodos alternativos para rastrear la web profunda. El Protocolo del sitio (primero desarrollado e introducido por Google en 2005) y OAI son mecanismos que  permiten que los servidores web anuncien las direcciones URL que se puede acceder a ellos, lo que permite la detección automática de los recursos que no están directamente vinculados a la web superficial.

Y para poner fin a mi entrada, algunos de los recursos de búsqueda en la web profunda:

  • The WWW Virtual Library es el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee.
  • www.infoplease.com es una Web de consulta con más de 57.000 artículos de la prestigiosa enciclopedia Columbia. Tiene algunas ramificaciones interesantes como Factmonster.com para los niños y Biosearch, un motor de búsqueda sólo para biografías, o información de todo lo acontecido históricamente en un determinado día.
  • www.deepwebteach.com ofrece cinco motores de búsqueda para temas específicos. Los motores de búsqueda abarcan la ciencia, medicina y negocios.
  • www.teachtrax.co.uk centra su información, en ingeniería, matemáticas e informática.
Bueno, como os habréis dado cuenta, esta vez me he extendido mucho en la entrada. Pero es que esto de la web profunda despierta mi curiosidad. Me podría pasar horas investigando sobre el tema. Y como no os quiero aburrir me despido ya deseando que seáis FELICES
¡¡ TENED CUIDADÍN CON EL LADO OSCURO DE LA WEB !! (JA, JA, JA)




No hay comentarios:

Publicar un comentario