Springe zum Hauptinhalt

Neues aus meiner Toolbox: Webseiten "wie sie sind" als PDF speichern

Al­le, die einen "S­creen­shot" der Web­sei­te als PDF ma­chen wol­len, kön­nen das brau­chen.

Wer schon ein­mal ver­sucht hat, Web­sei­ten als PDF zu spei­chern -- und zwar so, wie sie am Bild­schirm er­schei­nen --, kennt das Pro­blem: es geht nicht. Ent­we­der kann der Brow­ser gar kein PDF er­zeu­gen, oder man kann nur "als PDF dru­cken". Beim Dru­cken be­kommt man aber die Druck­-­An­sicht, und nicht das, was am Bild­schirm steht (zum Hin­ter­grund un­ten mehr).

Mei­ne Soft­ware er­zeugt ein PD­F, das den Bild­schir­m­in­halt wie­der­gibt (so wie links zu se­hen).

Screenshot einer Webseite

Gleiche Webseite ausgedruckt

So sieht die Web­sei­te am Bild­schirm aus

Und so der Aus­druck

Das kann die Soft­wa­re:

Er­zeugt ein PDF ei­ner be­lie­bi­gen, öf­fent­li­chen Web­sei­te

Das PDF ist durchsuchbar, enthält also noch den "Text" (und nicht nur ein Bild vom Text)

Fast al­le Web­sei­ten las­sen sich gut dar­stel­len, denn als Ren­der En­gi­ne wird die glei­cher ver­wen­det, die auch in Sa­fa­ri steckt (Web­kit)

Die Web­sei­te wird au­to­ma­tisch auf die Sei­ten­brei­te ska­liert

wenn die Webseite zu lang für ein Blatt ist, werden mehrere Seiten erzeugt

Sei­ten­for­mat, -rän­der und -o­ri­en­tie­rung kön­nen an­ge­ge­ben wer­den

Fi­re­fox­-­Ad­don: 1 Klick und das PDF wird ge­lie­fert

In zwei Varianten nutzbar:
  • klei­­ner HT­T­P­-­­­Ser­­ver, der die Um­­wan­d­­lung über­­­nimmt (den ver­­wen­­det das Ad­­don)

  • Kom­­man­­do­­zei­len­­-­­Tool

kann leicht an die Be­dürf­nis­se der Kun­den an­ge­passt wer­den, bei­spiels­wei­se

  • an­­de­­re Sei­ten­auf­tei­­lun­­gen, an­­de­­re Da­tei­­for­­ma­te

  • In­­te­­gra­ti­on in kom­ple­xe­­re Tools (sie­he Suc­­cess­to­ry un­­ten)

Die Soft­ware ist platt­for­m­u­n­ab­hän­gig (Li­nux, Win­dows, Mac), be­nutzt Qt und Py­thon.

Vergleich mit Alternativen

Al­ter­na­ti­ve 1: Für Fi­re­fox (und wohl auch an­de­re Brow­ser) gibt es Ad­d­-­ons, die die kom­plet­te Sei­te in ein Bild pa­cken. Sie grei­fen da­bei auf der "Bild" zu­rück, das der Brow­ser in­tern von der Sei­te er­stellt hat. Vor­teil: es wird das aus­ge­ge­ben, was mo­men­tan im Brow­ser an­ge­zeigt wird, al­so auch pri­va­te Sei­ten.

Nach­tei­le die­se Al­ter­na­ti­ve

  1. Ein Bild lässt sich schlecht auf meh­re­­re Blät­ter auf­­tei­len,

b) man be­kommt ein Bild, al­so ei­ne An­samm­lung von Bild­punk­ten. Das Bild­schirm­fo­to ist nicht durch­such­ba­r.

  1. Je nach Ad­­don muss man viel kli­­cken

Al­ter­na­ti­ve 2: "Dru­cken als PD­F" schei­det aus, da die Druck­an­sicht ge­wählt wird.

Al­ter­na­ti­ve 3: Be­ste­hen­de On­li­ne­-­Diens­te, da­von gibt es ei­ni­ge, ein paar ha­be ich aus­pro­bier­t, die ha­ben nicht über­zeug­t. Teil­wei­se nicht zu­ver­läs­sig er­reich­ba­r, teil­wei­se muss man zu oft kli­cken. Oft ist das Pa­pier­for­mat fest auf "Let­ter" ein­ge­stell­t. Das druckt sich gar nicht gut auf A4. Und man muss Drit­ten ver­trau­en (gg­f. Auf­trags­da­ten­ver­a­r­bei­tung, BDSG ist zu be­ach­ten).

Successtory ;-)

Mein Kun­de setzt das Tool seit ei­nem hal­b­en Jah­re bei der Me­di­en­be­ob­ach­tung ein, auf zwei Ar­ten:

  1. Fin­­det ein Mit­­a­r­­bei­ter ei­­ne in­­ter­es­san­te We­b­­sei­te im Netz, wird die­­se mit ei­­nem Klick als PDF ge­s­pei­cher­t.

  2. Ein Aus­­schnit­t­­diens­te schickt in­­ter­es­san­te Links per Mail. Die­­se Mail wer­­den au­to­­ma­tisch aus­­­ge­wer­tet und die PDFs an die Mit­­a­r­­bei­ter ge­­schickt -- zu­­sam­­men mit ei­­nem Vor­­schau­­bild und den In­­­fos aus der Mail. (Das Gan­­ze ist ei­­ne Er­wei­te­rung des Kom­­man­­do­­zei­len­­-­­Tool­s.)

  3. [Nach­­trag] Die Mail­­-­­Schnit­t­s­tel­le kann in­­­zwi­­schen auch Mails aus­­wer­ten, die nur Links ent­ha­l­ten. Die nö­ti­­gen Me­ta­­-­­In­­for­­ma­ti­o­­nen (für wel­chen Kun­­den, et­c.) wer­­den dem Be­treff ent­nom­­men. Letz­te­­rer muss da­­für na­tür­­lich ei­­nem be­­stim­m­ten For­­mat ent­spre­chen.

Hintergrund

Das Phä­no­men kennt Ih­r: Ihr wollt ei­ne Web­sei­te aus­dru­cken, und das Er­geb­nis sieht völ­lig an­ders aus, als das am Bild­schir­m. Die­se Mail er­klär­t, wes­halb das so ist und zeig­t, was man da­ge­gen tun kann, oh­ne fünf Bild­schirm­pho­tos zu­sam­men­kle­ben zu müs­sen.  Und sie zeigt ei­ne Lö­sung als PD­F, das man dann durch­su­chen kann?

Die Ur­sa­che ist: Für den Aus­druck ver­wen­det der Brow­ser ei­ne ei­ge­ne "For­mat­vor­la­ge" (ein so­ge­nann­tes Cas­ca­ding Style Sheet, CSS). Idee Idee da­hin­ter ist: Wer die Sie­te aus­druck­t, will kei­ne Na­vi­ga­ti­o­n, kei­ne Wer­bung, et­c. Al­so wer­den sol­che Ele­men­te in der For­mat­vor­la­ge für den Aus­druck auf "nicht an­zei­gen" ge­stell­t.

Da­bei ist es ega­l, ob Ihr auf einen phy­si­ka­li­schen Dru­cker druck­t, oder mit FreePD­F, PDF Cre­a­tor oder ähn­li­chem ein PDF er­zeug­t. Für den Brow­ser ist das al­les "dru­cken", als ver­wen­det er die For­ma­r­vor­la­ge für "Dru­cken".

Frü­her hat­ten Web­sei­ten da­für ei­ne Link "Druck­an­sicht". Der ist heu­te ziem­lich aus­ge­stor­ben, weil die Brow­ser die For­mat­vor­la­gen für den Aus­druck ver­wen­den, und da sich Con­tent Ma­nage­ment Sys­te­me ver­be­rei­tet ha­ben, die sol­che Vor­la­gen schon mit­brin­gen.

Wer den­noch ein "Bild" der Web­sei­te ha­ben möch­te, muss ein Bild­schirm­pho­to ma­chen. Mit den Bord­mit­teln der Be­triebs­sys­te­me be­kommt man da­mit aber im­mer nur einen Teil der der Sei­te auf ein Bild -- so­viel der Brow­ser halt auf ei­nem Bild­schirm an­zei­gen kann. Blöd, wenn der In­halt der Sei­te über drei Bild­schir­me geht.

Interesse?

Wenn Sie das Pro­dukt für Ih­ren ei­ge­nen Be­da­rfs nut­zen wol­len, ma­che ich Ih­nen ger­ne ein An­ge­bot. Set­zen Sie sich da­zu bit­te mit mir in Ver­bin­dung.

Portrait von Hartmut Goebel

Hartmut Goebel

Diplom-Informatiker, CISSP, CSSLP, ISO 27001 Lead Implementer

Haben Sie noch Fragen?
Anruf oder Mail genügt:
  +49 871 6606-318
  +49 175 29 78 072
  h.goebel@goebel-consult.de