Vylepšili jsme importer

Šetříme trafic našim bloggerům, stahovat všechna RSS co pět minut je totiž zhovadilé. Umíme posílat hlavičky If-None-Match a If-Modified-Since a úspěšně ignorovat odpověď HTTP 304. Podle frekvence publikování optimalizujeme i frekvenci kontroly obsahu.

~~Martin Malý~~, kterého jistě dobře znáte (je to ten pán, co postavil Bloguje.cz), nám dvakrát poslal milý email s něžným dotazem, zda bychom nemohli nějak vylepšit náš importer, který jej zbytečně navštěvoval co pět minut bez ohledu na frekvenci vydávání článků, čímž tvořil nezanedbatelný a přitom zbytečný trafic. My, ctíc svou slušnost, jsme mu samozřejmě stejně mile slíbili vylepšení našeho stahovače tak, aby s RSS exporty nezacházel jako s bednou laciných banánů, nýbrž aby se s nimi laskal jako s jemnou a citlivou dívkou, a vzápětí jsme se odešli, ctíc svůj epikureismus, laskat s našimi dívkami, importer nechaje jeho vlastnímu osudu.

Asi by se nic nedělo a my se stále jen vymlouvali na objektivní nedostatek času, kdyby Martin nepřišel na to, jak nás vyprovokovat. Stačil pouhý jeden článek naznačujíc velmi nepřímo ale přeci tak trochu cosi prohnilého u nás. Chtěl bych vás upozornit, že ani jedna z citovaných arogantních reakcí provozovatelů agregátorů nebyla naše. Ač se náš importer choval jako dotěrný asociál, my na emaily odpovídáme decentně a především v přátelském duchu.

Ale k věci. Importer jsme vylepšili. Ne úplně stejně jak navrhoval Martin, udělali jsme to podle sebe, v náznacích takto:

  1. Máme-li k dispozici potřebné informace, tak se k požadavkům souborech připojujeme hlavičku If-None-Match, případně If-Modified-Since. Odpověď HTTP 304: Not Modified tedy dokážeme adekvátně ignorovat.
  2. Podle frekvence publikování článků se snažíme optimalizovat množství požadavků.
  3. Přihlížíme k času v prvku ttl v RSS souborech. Pouze přihlížíme, čas kešování doporučený autorem nepovažujeme za svatý. Sloužíme stovkám uživatelů a aktuálnost informací je pro nás důležitou vlastností.
  4. Časem asi budeme zohledňovat i skipHours a skipDays. Časem, stávající úpravy by mohly na pár týdnů stačit.

Jen pro zajímavost, nyní Weblogy.cz sledují 120 zdrojů a denně stáhnou kolem 20 MB dat. Kolik to bylo dříve nevíme, protože tyto informace zaznamenáváme teprve třetím dnem.

Závěrem děkujeme Martinovi Malému za popíchnutí. Nebýt jeho, asi bychom na to ještě ani nesáhli. Tedy Martine, díky!

Redakce|dispecink (zavináč) weblogy (tečka) cz| Vydáno: 20. 2. 2007 20:31