Publicado el 29 de Mayo del 2018
730 visualizaciones desde el 29 de Mayo del 2018
1,5 MB
69 paginas
Creado hace 19a (24/07/2005)
Tecnologías X M L y
W eb Sem ántica
Departamento de Informática
Universidad de Oviedo
A ntes de em pezar…
Lo siento, pero No se puede aprender Tecnologías XML y Web Semántica
…en 1 semana
Objetivo del curso:
Conocer las tecnologías y para quésirven
1
E squem a de la presentación
- Tecnologías de base
- Unicode
-
Internet
- HTTP
- URIs
- HTML
- Lenguaje XML
- DTDs
- XML Schema
- Vocabularios XML
Tecnologías de B ase
Internet
World Wide Web
HTTP
URI
2
Internet
E volución
(60-80) Origen militar
Protocolos de comunicación (TCP/IP)
Seguridad ante ataques (múltiples servidores)
(80 – 90) Implantación académica
Protocolos de intercambio de información (FTP, SMTP, ...)
(90-95) World Wide Web
HTTP, HTML, etc.
Enorme biblioteca con material hipermedia
(95 – 00) Acceso comercial
Posibilidad de negocio ⇒ Dinero!!
Boom comercial
(00-) Crisis de las punto com
Historias de fracasos ⇒ Lecciones aprendidas
Nuevas posibilidades: Computación ubicua, Web semántica, etc.
Internet
Modem
ISP local
Router
ISP regional
Acceso particular
servidores
Telefonía móvil
Acceso corporativo
wireless
3
Internet
R epaso de conceptos
IP (Internet Protocol) protocolo de intercambio de paquetes
Asigna direcciones globales únicas (32 bits)
IPv6: nueva versión propuesta, con direcciones de 128 bits
Host: es un nodo de la red (con dirección IP)
Cliente: Ordenador que solicita servicios
Servidor: Ordenador que propicia respuestas a los clientes
Además de la dirección IP, el puerto (16bits) identifica el servicio
Varios puertos predefinidos (80 = HTTP, 25 = SMTP, 20/21 = FTP, etc.)
Protocolo TCP: Comunicación entre nodos manteniendo una conexión.
Incluye servicio de transporte y de control de congestiones
No garantiza tiempos ni retardos mínimos
Se utiliza para transmitir correos, ficheros, etc.
Protocolo UDP (Datagrama) no se realiza una conexión
Pueden producirse pérdidas de algunos paquetes
Utilizado para transmisión de voz
Internet
Principales Protocolos
HTTP: Protocolo de transferencia de hipertexto
Puerto 80
Utiliza TCP/IP como protocolo subyacente
No incluye estado (no se almacena información del cliente)
HTTP/1.1 proporciona conexiones persistentes
FTP: Transferencia de ficheros
Puertos 20/21
Mantiene estado
SMTP (simple mail transfer protocol)
Formato de mensajes mediante MIME
Protocolos de acceso (POP3, IMAP, etc.)
DNS: Asignación de nombres de dominio
Otros: LDAP , NNTP, WebDAV, etc.
4
W orld W ide W eb
E volución
Hipertexto (Ted Nelson, 1965)
Texto no secuencial, con enlaces
WWW (Tim Berners-Lee, 1989):
Protocolo HTTP (Hypertext transfer protocol)
Arquitectura cliente/servidor
Lenguaje HTML (HyperText Markup Language)
Lenguaje de Marcado descriptivo para hipermedia
URIs (Identificadores universales de recursos)
Identificación única de recursos (nombres globales)
Describen protocolo de acceso (http, ftp, etc.)
Arquitectura cliente/servidor
W orld W ide W eb
Cliente
Protocolo
http
Servidor
Visualizador
GET http://servidor.com/hola.html
http:/1.0 200 OK
<html>
<body>
Enlace a
<a href=“http://www.di.uniovi.es/p.html”>
Otro</a>
</body>
</html>
5
F ilosofía de la W W W
Universalidad
Sistema de información a nivel mundial
Enlaces únicos (URI)
Accesibilidad
Facilitar el acceso desde cualquier punto
Evitar discriminación por razón de ...
Estandarización
Gran número de plataformas y entornos computacionales
Linux / Windows / Macintosh /...
Mainframes / PCs / PDA / ...
Sistema basado en recomendaciones
Consorcio formado por
Organismos internacionales
Industrias
Instituciones educativas
A rquitectura de la W eb
Reglas
Confianza
Demostración
Datos
Docum.
auto-
descrito
Datos
Lógica
Ontologías
RDF + RDF Schema
XML + Namespaces + XML Schema
Unicode
URI
s
e
l
a
t
i
g
d
s
a
m
i
r
i
F
6
R epresentación de la Inform ación
B its, bytes, núm eros, caracteres, ...
Los ordenadores manejan código binario: 0s y 1s
Bytes: Grupos de 8 bits
Números: Sistemas de codificación binaria, octal, hexadecimal...
⇒
Caracteres: Código que asocia a cada carácter un nº
ASCII: 7 bits
(0 –127)
(A)merican(S)tandard(C)odefor(I)nformation(I)nterchange
Extensiones de ASCII
ISO-8859-1(iso-latin-1)
(8 bits) ASCII (0-127) + otros caracteres típicos de Europa occidental
Familia ISO-8859-X = Otros alfabetos europeos
ISO-8859-15(iso-latin-9) Igual que iso-8859-1 + símbolo de €
i di om
.. hay
.
!
€ き ㄝ ㌟ ㉃ ⋐
car act er es
₤ ウ ぼ
m uchos
∀ ℵ
m uchos
y
A
ℜ
¡
C
U
as
I
D
D
O
.
.
.
R epresentación de la Inform ación
U nicode
ISO-10646 (31 bits) Define un repertorio universal de caracteres (UCS)
En continua revisión: ISO-10646-2:2001 contiene más de 70.000
caracteres
UNICODE = Consorcio de empresas que define restricciones sobre la
implementación de ISO-10646
Varias codificaciones (UTF = Unicode Transformation Format)
- UTF-8: Los primeros 127 códigos se presentan igual (compatible con ASCII)
El resto se codifican en longitud variable
Relativamente Eficiente
- UTF-16: Usa 16bits para los caracteres más comunes, el resto con pares de 16 bits
- UTF-32: Codificación directa en 32 bits (desperdicio de espacio)
Glyph
Font
A A A A A
NOTA: Conviene distinguir:
Carácter: Entidad abstracta (Letra A)
Glifo (
): Representación del carácter A
Fuente (
): Conjunto de glyphs, ejemplo: Times Roman, Arial, etc.
7
R epresentación de la Inform ación
Im ágenes, A udio, V ídeo, R ealidad V irtual
Imágenes: En pantalla = matriz de puntos de colores (pixels)
Formatos Raster (Raw): Se enumeran todos los puntos con sus
colores
Ejemplo: Bitmap, TIFF
Compresión: diversos algoritmos de compresión
GIF: Utiliza 8 bits (hasta 256 colores)
Byte de color = Indice en la paleta de colores
Bueno para dibujos o texto, poco recomendable para fotografías
JPEG: utiliza 24 bits (hasta 16 millones de colores)
Recomendable para forografías
Vectorial: Se enumeran las instrucciones de dibujo
Ejemplos: DXF, SVG (estándar de Internet)
Sonido: Formatos raster (WAV) y comprimidos (MP3)
Vídeo: Formatos comprimidos (MPEG)
Realidad Virtual: Lenguaje de Modelado (VRML, X3D)
Identificación de R ecursos
U R Is
URI: (Uniform resource Indentifier) Identifica un recurso de forma global
Puede sub-clasificarse en:
URL (Uniform resource locator)
Además de identificar el recurso, indica cómo llegar hasta él
URN (Uniform resource name): Nombre de recurso
Ejemplo: urn:xmlorg:objects:schema:xmlschema:xcatalog
URIs
esquema://servidor:puerto/ruta?datosGET
http://www.uniovi.es:8080/prueba/carrito?action=print
URNs
URLs
8
Sesión 2
L enguaje X M L
Departamento de Informática
Universidad de Oviedo
M arcado de docum entos
Orígenes: Industria de la Publicación
Se usaban marcas para indicar cómo componer el documento para la
impresión
Ejemplo de corrección tipográfica
Fuente: http://recursos.cnice.mec.es/bancoimagenes
9
M arcado de docum entos
Sólo texto
ALBA Abril de 1915 Granada Mi corazón oprimido
siente junto a la alborada el dolor de sus
amores y el sueño de las distancias.
Título, negrita, centrado, 14pt
SubTítulo, negrita, centrado
SubTítulo cursiva, centrado
Texto marcado
]ALBA[ ‹
]Abril de 1915[‹
]Granada[‹
]Mi corazón oprimido [‹
]siente junto a la alborada [‹
]el dolor de sus amores [‹
Verso
]y el sueño de las distancias. [‹
Verso, 10pt
Verso
Verso
Resultado
ALBA
Abril de 1915
Granada
Mi corazón oprimido
siente junto a la alborada
el dolor de sus amores
y el sueño de las distancias.
M arcado D escriptivo
El marcado no es la información que contiene el documento
Marcado = información acerca del documento = meta-información
Lenguajes de Marcado descriptivo: Incluyen marcas que describen
cómo procesar el documento
Ejemplo: HTML
<html>
<head><title>Poema</title></head>
<body>
<h1>Alba</h1>
<h2>Abril de 1915 </h2>
<h2><i>Granada</i></h2>
<p>Mi corazón oprimido</p>
<p>siente junto a la alborada</p>
<p>el dolor de sus amores</p>
<p>y el sueño de las distancias.
</p>
</body>
</html>
10
M arcado G eneralizado
Marcado generalizado = Sintaxis común que facilita la creación de
lenguajes descriptivos
<html>
<head><title>Poema</title></head>
<body>
<h1>Alba</h1>
<h2>Abril de 1915 </h2>
<h2><i>Granada</i></h2>
<p>Mi corazón oprimido</p>
<p>siente junto a la alborada</p>
<p>el dolor de sus amores</p>
<p>y el sueño de las distancias.</p>
</body>
</html>HTML
Otras marcas...(misma sintaxis)
<poema fecha="Abril de 1915"
lugar="Granada">
<titulo>Alba</titulo>
<verso>Mi corazón oprimido</verso>
<verso>siente junto a la alborada</verso>
<verso>el dolor de sus amores</verso>
<verso>y el sueño de las distancias. </verso>
</poema>
M arcado G eneralizado
SG M L
(70- ) GML desarrollado en IBM – Generalized Markup Language
(Goldfarb, Mosher, Lorie)
(86) SGML Standard Generalized Markup Language (Estándar ISO)
Utilizado para el intercambio de documentos
Principio: Separar contenido de la forma de representarlo
Muy flexible (permite definir vocabularios específicos para cada aplicación)
HTML era un vocabulario de SGML
<P> párrafo <UL> lista </UL>
?
<P> párrafo
</P>
<UL> lista
</UL>
<P> párrafo
<UL> lista
</UL>
</P>
(LI)+ >
<!ELEMENT UL - -
<!ELEMENT LI - O (%flow;)* >
<!ELEMENT P
- O (%inline;)* >
Ejemplo de la especificación de HTML en SGML
La etiqueta final es obligatoria
La etiqueta final es opcional
La ambigüedad se deshace mediante el DTD
En Internet no siempre podremos acceder al DTD
11
T. Bray, J. Paoli, C. M. Sperberg-McQueen (1995)
Objetivos de diseño (según la especificación)
M arcado G eneralizado
XM L
1. Utilizable en Internet
2. Soporte a gran variedad de aplicaciones
3. Compatible con SGML
4. Debe ser fácil escribir programas que procesen XML
5. Número de características opcionales = Mínimo
6. Documentos legibles por personas
7. El diseño de XML debe poder hacerse rápidamente
8. El diseño de XML debe ser formal y conciso
9. La creación de documentos XML debe ser fácil
10. La concisión
Comentarios de: Tecnologías XML y Web Semántica (0)
No hay comentarios