[Examen Diciembre 2022][Problema 2]

[Examen Diciembre 2022][Problema 2]

de Federico Javier Martinez Wallace -
Número de respuestas: 2

Buenas!! Espero anden bien,

Me surgió una duda viendo la solución al problema mencionado en el asunto. Sobre el final de la implementación de la función download(url), donde aparece el comentario -- saltearse header, entiendo que del header del mensaje-response http se está eliminando, y en el buffer (buff) solo queda el body. Luego de extraer los links del body, se hace  appendfile(buildfilename(url), buff).

Esto está bien?, lo digo porque la consigna era guardar en disco todas las páginas enlazadas, y así cómo está no se estaría grabando a disco partes de la mismas (el header en particular).

Gracias desde ya,

saltearse-header-ex-dic-2022


En respuesta a Federico Javier Martinez Wallace

Re: [Examen Diciembre 2022][Problema 2]

de Ariel Sabiguero Yawelak -
Hola, buen año!



El header no es parte de la página, sino, es parte del protocolo HTTP.



Si guardas el header + payload,  estás confundiendo datos de control con

carga útil, y es un error en este problema.



Cada elemento que descargas de la web no incluye los cabezales HTTP

(podés probar descargar algo con curl o wget, fijarte lo que obtienes y

a la vez capturar el tráfico con wireshark). Los datos del protocolo

HTTP NO son parte de la página (como tampoco lo son las cabeceras de

TCP, IP, Ethernet....)







saludos





ariel