Publicado el 9 de Julio del 2018
1.699 visualizaciones desde el 9 de Julio del 2018
5,9 MB
57 paginas
Creado hace 8a (01/11/2016)
Philippe Boland
@enREDo
15/16 - Screenagers
Ciberadicción
Copycat
Copy past
Nov. 11 del 2013
La Web Invisible es el conjunto de
documentos, en línea disponibles
que ni se leen ni están indexados por
los motores de búsqueda
tradicionales.
También se conoce como "web
oculta" o "web profunda" (Deep
web en Inglés).
Limites
Datos cerrados
Qué es la Deep Web
Definición (Deep Web, Hidden Web Web Ocultos)
Todo el contenido de la web que no se accede
directamente a través de hipervínculos. En
particular: formularios HTML, servicios web.
Tamaño estimado
500 veces más que en la Web de superficie
~ 400.000 bases de datos Web profundas.
9
Vista Conceptual de la Web profunda
10
Deep Web dos categorías
1. Técnicamente inaccesible para los
buscadores
• Páginas creadas dinámicamente
• Bases de datos
• Archivos no textuales
• Sitios protegidos por contraseña
• Sitios prohíben rastreadores
2. Técnicamente accesible a los buscadores
• Archivos de texto en formatos no-html
(Google lo hace!)
• Páginas excluidos de motores por de
política editorial o sesgo
Deep Web no se navega, se bucea.
Contenido de la Web profunda?
Información nueva y cambia de forma dinámica y las que se que se almacena en una base de datos
• Páginas amarillas y otros directorios;
• Catálogos de bibliotecas y bases de datos
• Bases de datos de publicaciones;
• Los servicios meteorológicos;
• Patentes y leyes
• Las definiciones de diccionario
• Productos en venta o subasta
• informes técnicos
• Otros datos especializados
• Noticias e informes
• Ofertas de empleo
Conocimiento en la Web profunda
• Contenido de la Web profunda oculta de los motores de búsqueda
Web clásicas (que sólo tienes que seguir los enlaces)
• Pero es muy valiosa y de gran calidad!
•
Incluso los servicios que permiten el acceso a través de la Web de la
superficie (por ejemplo, el comercio electrónico) tienen más
semántica cuando se accede desde la Web profunda
• Cómo beneficiarse de esta información?
• ¿Cómo hacerlo de forma automática, de manera no supervisada?
15
¿Cómo esta "estructurado" es la Web profunda?
Bases de datos Web clasificada en dos tipos
1 - las bases de datos no estructurados
• objetos de datos como medios no estructurados (texto, imágenes, audio y
vídeo)
2 - bases de datos estructuradas
• objetos de datos como registros estructurados "relacionales" con pares
atributo-valor /records with attribute-value pairs
16
• Las publicaciones académicas, como las
de revistas científicas privadas, tampoco
forman parte de la superficie, ya que
están escondidas en páginas individuales
dentro de redes privadas, como las que
descargó el fallecido Aaron Swartz y por
las que fue encarcelado y enjuiciado.
Muchas páginas también están
escondidas porque forman parte de una
Intranet, usualmente de corporaciones o
universidades.
Internet versus bases de datos
Internet Interés :
• La multiplicidad de fuentes de
información.
• La interactividad.
• Cobertura internacional.
Uso :
• Noticias inmediata?.
• Análisis de los portales de
empresas.
• Información sobre un país.
• Portales especializados
Bases de datos Interés :
• Fiabilidad de la información.
• Datos con valor añadido
• Una forma estructurada
Uso :
• Archivo de prensa?. Balances de
empresas?. Investigación del mercado
La evolución del concepto de vigilancia y soportes
• Vigilancia tecnológica
(años 70)
• Desarrollo de bases de
datos científicas, patentes
• Inteligencia Competitiva y
Estratégica (años 80)
• Bases de datos empresas,
sectores?
• Inteligencia económica
(año 90)
• Desarrollo y surgimiento
de la "web 2.0“
Explosión de fuentes de información
Disminución del costo de acceso a la información
Motor de búsqueda ideal
Calidad, cantidad?
Actualización
Sugerencia de palabras clave,
Búsqueda booleana, Opciones avanzadas
Contenidos
Interfaz de
consulta
Pertinencia
Utilidades
Clasificación y
visualización
Resumen automático
Traducción
Vigilancia automática
Clustering
Cartografía
Los 4 principales modos de
búsqueda de información (fuente: URFIST)
Modes de recherchePrincipe, démarcheintellectuellesType d’informationconcernéeExemples d’outilsRecherche parnavigationarborescenteDémarchesystématique, dugénéral au particulierRecherche par menussuccessifsInformationstructurée, organisée enplan de classementTables des matièresClassificationsdocumentairesAnnuaires webPage d’accueil d’unsite webRecherche parnavigationhypertextuelleRéseauDémarche associative,d’une notion à l’autre.Navigation dans unréseau de noeuds et deliensInformation nonstructuréeRenvois dans uneencyclopédieLiens hypertextePortailsRecherche par requêtesur la description" dudocumentIndexDémarche d’indexationde l’informationRecherche par champs,logique booléenneInformation structuréeen champs.Index des livresBanques de donnéesCatalogues debibliothèquesRecherche par requêtesur le texte intégralTexteDémarche d’analyselinguistiqueRecherche contextuellesur le contenuInformation nonstructuréeMoteurs de rechercheOutils de TALNOutils linguistiquesLa guerra de los motores
• Las grandes naciones han tomado en cuenta
desde hace tiempo de los retos estratégicos de
la indexación de los contenidos digitales.
• Su independencia informacional
Los motores frente a los metadatos
• La geopolítica de los datos impone que los gobiernos de definir una política
clara de amasamiento y de preservación de los datos digitales
• Los objetos conectados, la relocalización, la emergencia de las ciudades
inteligentes conectadas y de la información ubicua contribuye a un diluvio
de datos digitales.
• La recopilación y recolección de metadatos (big data) induiront le
développement de moteurs polyvalents capables d'indexer toutes les bases
de données publiques quelle que soient leurs tailles et leurs contenus.
• infraestructura de poder estratégico.
Memex, el motor Darpa
• El acceso a la Web profunda es un componente estratégico del sistema global de lucha contra la
ciberdelincuencia, que sigue siendo una prioridad para el gobierno estadounidense. Los esfuerzos
por conseguir un rastreador de la web profunda se han materializado en 2014 con el desarrollo
del motor de búsqueda Memex directamente salido de los laboratorios de la Darpa.
Memex ha desmantelado con éxito una red de traficantes
de personas. Durante la final de la Super Bowl.
• Los algoritmos de Memex se utilizaron para detectar
paginas Web relacionadas con ofertas de prostitución.
Sus herramientas de visualización y análisis capturan los
datos invisibles desde la web profunda y dibujar y
mapear una gráfica de la relación que une estos datos.
Un nicho donde se encuentran las
peores cosas posibles: ventas de
drogas ilícitas, pornografía, armas, y
hasta asesinos a sueldo. Se dice que
en la Deep Web no se navega, se
bucea. No tiene buscadores, sino
algunos sitios de referencia para
comenzar la búsqueda como la
Hidden Wiki, y hay que tener mucho
cuidado con lo que se busca, pues
puedes encontrarte con algo que no
quieres ver o algo que otros no
quieren que veas.
La economía sumergida abarca dos áreas:
• Economía informal o irregular, es actividad económica legal aunque
oculta a efectos registrales por razones de elusión fiscal o de control
administrativo. cuya regularización constituye el grueso del trabajo de
cuerpos funcionariales como los de Inspectores de Hacienda e
Inspectores de Trabajo; y
• Economía ilegal, por contra, lo es por su propia naturaleza, por
ejemplo, el tráfico de drogas y armas, crimen organizado, terrorismo y
la prostitución. Cuya represión es competencia, sobre todo, de los
órganos de la Justicia, la Policía, etc., y organismos
intergubernamentales especializados.
Mercado negro
• Mercado negro o economía subterránea es el término utilizado para
describir la venta clandestina e ilegal de bienes, productos o servicios,
violando la fijación de precios o el racionamiento impuesto por el
gobierno o las empresas.
• A nivel mundial, se estima que la economía sumergida ha
proporcionado 1800 millones de puestos de trabajo.
Nivel 0: El Web común
Este nivel es el que navegar todos los
días: YouTube, Facebook, Wikipedia y
otros sitios famosos o de fácil acceso se
puede encontrar aquí.
Nivel 1: El web de superficie
• Este nivel es accesible por medios normales, pero contiene los sitios
web "oscuro" como Reddit. Digg, servicio de dirección temporal de
Email, los inchas de zombies y vampiros, alojamiento web, bases de
datos MySQL, etc ...
Nivel 2: Bergie Web
• Normalmente, este es el último nivel de acceso libre: En este nivel,
usted puede encontrar los sitios "underground", pero aún no
indexado como 4chan, Freehive, 1eden, Let Me Watch This, Hell
bound, Black Hat Worldo incluso servidores FTP, servidores web
cargados, resultados de búsqueda google bloqueadas, honeypots ...
Mas o menos el 99% de Internet.
Nivel 3: The Deep Web
A partir de aquí las cosas se están poniendo
serias. Para acceder a esta parte de la web, debe
tener un proxy o TOR. Este es el inicio del buceo
en la web profunda.
El contenido de la web profunda sigue siendo
heterogéneo. Se encuentra grandes bases de
datos, bibliotecas voluminosas no indexadas por
los motores debido a su tamaño, páginas
efímeras, mal construidas, con muy poco tráfico
o voluntariamente hechas inaccesibles por los
motores tradicionales.
Los motores de búsqueda convencionales como
Google, utilizan algoritmos de indexación
basados en el Pagerank que se basan en una
medida de la popularidad del sitio o de la página.
1993
Privacidad
Th$jHTo%46 : Corto y difícil de recordar.
Si alguien llama a tu puerta, amiga mía, y algo en tu
sangre late y no reposa y en tu tallo de agua,
temblorosa, la fuente es una líquida de armonía.: muy
fácil de recordar y difícil de adivinar para un atacante
Como acceder a los sitios de la web profunda
• De hecho, todo depende de
Comentarios de: Qué es la Deep Web? (0)
No hay comentarios