HTML feldolgozás

HTML feldolgozás céleszközökkel

Egy HTML oldal letöltésekor sokszor felmerül az igény, hogy a honlapon található összes képet mentsük le, vagy az összes PDF-fájlt, amire mutat link. Ehhez a HTML-XML-utils programcsomag lehet a segítségünkre, amely a legtöbb disztribúcióban megtalálható. A következő parancs kilistázza az ezen az oldalon található összes matematika OKTV feladatsort:
curl http://uzsolt.hu/comp/math/oktv/ | hxnormalize -l 300 | hxwls | grep pdf
A curl paranccsal a standard kimenetre (stdout) küldjük a honlap tartalmát, a hxnormalize paranccsal szabványosítunk (a -l 300 paraméter 300 karakteres sorokat hoz létre, ennyi elégnek kell lennie), a hxwls a linkeket gyűjti ki, a grep pdf pedig azokat a sorokat listázza, amelyekben található a pdf karaktersorozat. Parancsbehelyettesítéssel akár le is tölthetjük az összes PDF-fájlt.