HTML feldolgozás
HTML feldolgozás céleszközökkel
Egy HTML oldal letöltésekor sokszor felmerül az igény, hogy a honlapon található összes képet mentsük le, vagy az összes PDF-fájlt, amire mutat link. Ehhez a HTML-XML-utils programcsomag lehet a segítségünkre, amely a legtöbb disztribúcióban megtalálható. A következő parancs kilistázza az ezen az oldalon található összes matematika OKTV feladatsort:
A
curl paranccsal a standard kimenetre (stdout) küldjük a honlap
tartalmát, a hxnormalize paranccsal szabványosítunk
(a -l 300 paraméter 300 karakteres sorokat hoz létre, ennyi
elégnek kell lennie), a hxwls a linkeket gyűjti ki, a
grep pdf pedig azokat a sorokat listázza, amelyekben található a
pdf karaktersorozat.
Parancsbehelyettesítéssel akár le is tölthetjük az összes PDF-fájlt.