Stoppt die Vorratsdatenspeicherung! Jetzt klicken &handeln! Willst du auch an der Aktion teilnehmen? Hier findest du alle relevanten Infos
und Materialien:
Sie sind hier: Startseite Blog

Blog

Kleiner Erfahrungsbericht mit Online-OCR-Diensten

Ein paar habe ich ausprobiert und meinen Favoriten gefunden

heute wollte ich ein PDF, den ich gescannt hatte, als Text haben. Meine eigenen Versuche mit OCR (vor einigen Jahren) hatten unbrauchbare Ergebnisse geliefert. Da der Text, den ich haben wollte, aus einer Zeitschrift stammt und damit in keinster Weise vertraulich ist, beschloss ich, einen Online Service zu verwenden.

Hier meine Erfahrungen, unter den ersten Einträgen, die die Internetsuche ausgeschmissen hat:

  1. Ein "Free online OCR": verarbeitet nur die erste Seite des PDF. Das Ergebnis wäre aber insgesamt okay.
  2. Noch ein "Free online OCR": verarbeitet mehrere Seiten, im Ergebnis (RTF-Format) liegen aber alle Text-Rahmen auf einer Seite. Unbrauchbar. Zumal ich mehrere Anläufe gebraucht habe, um ein Ergebnis zu bekommen. Die beste Begründung dabei war: "Low Image Quality" – bei 660 dpi eine gewagte Aussage.
  3. …ich überspringe ein paar, die ich angesehen, aber nicht mehr getestet hat. Beispielsweise, weil sie auch nur die erste Seite des PDF verarbeiten.

 

Weiter unten in der List bin ich auf den Service von Abby Finereader gestoßen. Den hatte ich im ersten Durchgang übersprungen, weil er eine Registrierung verlangt. Es Ergebnis hat mich echt beeindruckt: Der Text scheint keine Rechtschreibfehler zu enthalten, die Bindestriche am Zeilenende werden sogar in "weiche" Trennzeichen umgewandelt, das Layout ist passabel erhalten. Ausserdem kann man viele Ausgabe-Formate wählen, unter anderem OpenDocument-Text. Was will man mehr?

Einziger "Haken" – soweit man das bei einem kostenlosen Dienst sagen kann –: Man kann nur 10 Seiten in 14 Tagen konvertieren.

Noch ein Tipp zur Registrierung: Bei meinem Versuch konnte ich irgendeine E-Mail-Adresse angeben. Denn es wird noch nicht einmal eine Bestätigungs-Mail verschickt. Ich gelange nach der Registierung direkt zum "Jetzt erkennen"-Schritt.

Ach, und um es nochmal ausdrücklich zu sagen: Vertrauliche oder persönliche Text würde ich einem Online-Dienst nicht anvertrauen.

29.10.2014 16:05

Filmgespräch zu „Citizenfour“ in Herrsching

18. Nov. 2014: Das Agenda-21-Kino Herrsching zeigt den neuen Film über Edward Snowden und die globale Überwachung. Anschließend Filmgespräch mit Hartmut Goebel von Digitalcourage e.V.

In der erfolgreichen Reihe "AGENDA-21-Kino Herrsching" zeigt die lokale Agenda-21-Gruppe seit 2004 jeden dritten Dienstag im Monat einen Film mit sozialem, ökologischem oder wirtschaftlichem Thema und lädt Gesprächspartner ein, um im anschließenden Filmgespräch das Publikum weiter zu informieren und zur Diskussion anzuregen.

Am Dienstag, den 18.11.2014 um 19.30 Uhr zeigen wir den brandaktuellen Film Citizenfour.

Als Gesprächspartner dabei ist diesmal Hartmut Goebel von Digitalcourage e.V..

Der Film beleuchtet den Skandal um den Whistleblower Edward Snowden, dessen Enthüllungen über den NSA die Welt verändert haben. Die Filmemacherin Laura Poitras war die erste Person, mit der Snowden unter dem Pseudonym „Citizenfour“ Kontakt aufnahm. Sie setzte von Beginn an ihre Kamera ein und machte Aufnahmen von den ersten Emails über die konspirativen Treffen mit dem Journalisten Glenn Greenwald in Hongkong bis hin zu Snowdens Odyssee ins russische Exil. Der Film wurde bei der Premiere am 10. Oktober in New York umjubelt.

Dienstag,  18. November 2014, 19.30 Uhr

Das Filmgespräch dauert in der Regel etwa eine Stunde (Ende spätestens 22.30 Uhr).

Veranstaltungsort: Kino Breitwand, Luitpoldstr. 5, 82211Herrsching – 5 Min. vom S-Bahnhof Herrsching. Kartenreservierung empfehlenswert unter 08152 / 39 96 10.

23.10.2014 07:35

Digitale Bürgerrechte in der Ära Snowden

23. Okt. 2014: Podiumsgespräch mit Hartmut Goebel im EineWeltHaus, München

Digitale Bürgerrechte in der Ära Snowden

Bodo Tasche (CC BY-NC-SA 2.0)

Seit mehr als eineinhalb Jahren wird ein Datenschutzskandal nach dem anderen aufgedeckt – weltweit, aber auch in Deutschland. Immer mehr staatliche Stellen sind in diese Enthüllungen verstrickt und es stellt sich die Frage, ob es überhaupt noch jemanden gibt, der sich um den Schutz der Daten und die damit verbundenen digitalen Bürgerrechte kümmert. Es nun an der Zeit, dieses Thema selbst in die Hand zu nehmen!

Christine Wittig vom Linksystem München ist zu diesem Thema im Gespräch mit Hartmut Goebel von Digitalcourage e.V. und klärt u.a. folgende Fragen:

Wie steht es um die digitalen Bürgerrechte im Jahr 2 nach Edward Snowdens Enthüllungen? Können sich politisch aktive Menschen gegen Abhörangriffe schützen? Gibt es eine Art digitale Selbstverteidigung, die auch „Otto Normalverbraucher“ umsetzten kann?

Sie berichten auch über den aktuellen Stand im „Fall Edward Snowden“ und beleuchten das Thema „digitale Bürgerrechte“ politisch wie praktisch.

Um Anmeldung an info@link-m.de wird gebeten.

Veranstaltungsort: EineWeltHaus München, Schwanthalerstr. 80, 80336 München
Veranstalter: Trägerkreis EineWeltHaus München e.V., Digitalcourage e.V.,und Linksystem München in Kooperation
Begin: 19 Uhr
Eintritt frei

17.10.2014 17:55

Ausgerechnet CSC will Websites-Sicherheit testen ...

... und die Mutterfirma arbeitet für die NSA, toll.

Die CSC Deutschland Solutions GmbH erhielt 2014 den Big Brother Award, da sie im Auftrag von 10 Bundesministerien an sicherheitsrelevanten Projekten arbeitet – und gleichzeitig ist die Mutterfirma die externe EDV-Abteilung der US-amerikanischen Geheimdienste und hat Entführungsflüge in Foltergefängnisse im Auftrag der CIA organisiert. (Ausführliche Begründung der Preisverleihung.)

Und ausgerechnet diese Firma bietet nun ein kostenfreie Sicherheitsüberprüfung von Webanwendungen. Klar, damit kann CSC mit Erlaubnis die Schwachstellen suchen und dann hintenherum an die NSA verkaufen.

Zitat aus dem Newsletter der Allianz für Cyber-Sicherheit des BSI:

2. Kostenfreie Sicherheitsprüfung von Webpräsenz oder Webapplikation durch CSC Deutschland Solutions

Die CSC Deutschland Solutions GmbH bietet den Teilnehmern eine kostenfreie Sicherheitsprüfung einer Webpräsenz oder Webapplikation an.

[...] richtet sich an Unternehmen, [...] deren Kerngeschäft außerhalb der IKT-Branche liegt. Insbesondere diese Unternehmen sind erheblichen Risiken ausgesetzt, während Unternehmen der IKT-Branche in diesem Feld erfahrungsgemäß bereits gut aufgestellt sind. [...]

Man kann das auch so interpretieren: Bei den Unternehmen der anderen Branchen finden sich noch Sicherheitslücken, die man leicht ausnutzen kann. Ideal für Industriespionage.

13.10.2014 08:00

Liberario als Alternative zum DB Navigator und zu Öffi

Endlich eine freie Software zur Fahrplanauskunft

Neulich bloggte ich zu "Öffi als Alternative zum DB Navigator". Öffi hat aber einen – in meinen Augen großen – Nachteil: Es ist keine freie Software. Ich verstehe auch nicht, weshalb der Autor die Software nicht frei gibt, ja noch nicht einmal ein Repo für F-Droid erstellt.

Inzwischen wurde ich auf Liberario hingewiesen, eine freie Software zur Fahrplanauskunft. Es benutzt als Grundlage die gleiche Bibliothek, die auch Öffi benutzt, verwendet aber eine andere Darstellung.

Im Unterschied zum DB Navigator ist die Anzeige viel kompakter, weil es nur um die Fahrplanauskunft geht, nicht um eine Preisauskunft. Konkret muss ich auf meinem Gerät nicht nach unten scrollen, um "Suchen" zu klicken. Bei DB Navigator muss ich das tun, weil darüber noch die Angaben zu Bahncard, Anzahl der Personen, etc. abgefragt werden.

Liberario gibt es im Google Play Store oder bei F-droid.

21.08.2014 21:38

In need for an enhanced git URL scheme

Which allows specifying heads/branches and paths within the repository.

I'm currently testing project-builder, to tool for easily building software for different Linux distributions. One of the features of this tool is to check out the configuration from a source code management system. Well, with git this becomes quite a problem, as one can not specify the branch nor a path within the repo when cloning.

So I'm proposing an extended git URL schema:

Example:

git://<host>/path/to/git/repo?h=devel&p=src/Makefile

Which means:

  • The repository itself is passed as URL as usual
  • The head (aka branch) is passed as query parameter "h"
  • The file or directory is passed as query parameter "p"

Reasoning

For cloning the repository, git needs to know the repository URL. When passing a URL like cgit uses, git can not decide which part of the path belongs to the repo and which part is below. Git would need to walk the URL-path up until it is able to find access a valid repository. This behaviour is not desired as it may have unexpected side-effects, esp. when accessing a a http-based repository.

This means: The part-part of the URL must only contain the path to the repository!

So obviously there is a need for specifying the head/branch to access. This is given as a query parameter. I decided to use "h" like "head" like cgit does.

If one wants to specify a certain file or directory within the repository, this is as a query parameter, too. I decided to use "p" like "path".

FAQ

Why not using the notation /BRANCH/path?
See above: When cloning, git would need to walk the URL-path up until it is able to access a valid repository. This behaviour is not desired as it may have unexpected side-effects, esp. when accessing a a http-based repository.
Additionally git does not support this when cloning local repositories. (Try something like `git clone /path/to/repo/master/Makefile`.) So this would implement an asymmetry.
Why not using the notation /path@BRANCH?
This would inhibit using an `@`-sign in any path. Plus it does not solve the problem described in the /BRANCH/path-case.
Why not using the notation /tree/BRANCH/path?
Same problem here: git could decide which part of the path belongs to the repo.
21.08.2014 21:23

TR-069 auf Fritzbox ausschalten und Ergebnis prüfen

Eigentlich sollte das über die GUI gehen, aber auf meiner Fritzbox kann ich das nicht finden. Also per Hand ...

Diese Woche gibt es etwas Aufregung um TR-069, weil Sicherheitsforscher entdeckt haben, dass viele Provider es unsicher implementieren. Zeit, sicher zu stellen, ob TR-069 auf meiner Fritzbox aktiv ist.

Meine Kurzanleitung findet sich weiter unten

Mein Vorgehen

Bei einer Suche bin ich auf eine Anleitung gestoßen, die den TCP-Port für TR-069 in der Firewall abklemmt. Nett, aber kompliziert einzurichten. Außerdem suche ich den Ein-/Ausschalter. Leider kann ich den nicht in der Web-Oberfläche meiner Fritzbox finden.

Diese Anleitung zeigt, wie man TR-069 per telnet ausschaltet. Weder per netstat (List der offenen Netzwerkports) noch per ps (Liste der laufenden Prozesse) konnte ich keinen Unterschied feststellen zwischen aus- und eingeschaltet – auch wenn ich die Fritzbox dazwischen neu gestartet habe. Also brauche ich einen anderen Weg, um herauszufinden, ob das Kommando wirklich tut, was es soll.

Auf der Fritzbox habe ich ein Programm Names tr069starter gefunden. Das inoffizielle Wiki zur FRITZ!Box hat eine detaillierte Beschreibung dazu. Dieses Programm macht aber etwas anderes als gedacht: es kopiert eine TR-069-Konfiguration von einem USB-Stick. Nach etwas stöbern in diesem Wiki habe ich die Beschreibung für tr069.cfg gefunden. Und dort ändert sich ein Eintrag, wenn man die in der ersten Anleitung genannten Kommandos absetzt.

Nun hat die Fritzbox mehrere Schichten von Konfigurationsdateien. Aktiv ist die in /var/flash/tr069.cfg (TFFS-Konfiguration). Die anderen beiden (SquashFS und Provider-Datenbank) werden beim Zurücksetzen auf Werkeinstellungen gelesen.

Nachtrag

Eben habe ich noch eine AVM-Hilfeseite entdeckt: die erklärt, weshalb ich die Einstellung nicht in der Web-Oberfläche sehe: »Die Seite "Anbieter-Dienste" ist in der Benutzeroberfläche der FRITZ!Box nur dann vorhanden, wenn Ihr Internetanbieter die automatische Einrichtung der FRITZ!Box nach TR-069 unterstützt«. Alles klar!

Kurzanleitung

Und so kann man TR-069 ausschalten und das Ergebnis prüfen:

  • Telnetd auf der Fritzbox aktivieren: #96*7* auf einem angeschlossenen Telefon eingeben. Das Passwort ist das der Weboberfläche.
  • Per telnet auf die Fritzbox: telnet fritz.bos
  • TR-069 ausschalten: ctlmgr_ctl w tr069 settings/enabled 0
  • Config-Datei ausgeben, um Ergebnis zu prüfen: cat /var/flash/tr069.cfg
  • Dort steht fast am Anfang die Zeile "enabled = no".
  • Telnetd auf der Fritzbox wieder ausschalten: #96*8* auf einem angeschlossenen Telefon eingeben
21.08.2014 13:48

Heartbleed: $500 Mio. Kosten ... $1–10 Mio. benötigt ... Programmierern bekommen magere $2000

Lesetipp - über die Diskrepanz zwischen der Wichtigkeit freier Software und den tatsächlich dafür aufgewendeten Mitteln am Beispiel von Heartbleed: 500 Millionen Kosten durch Heartbleed für die ...

19.08.2014 09:15

Akkurater Widerstand – Demo im Anzug

"Wir wollen, dass Oma Krause in den Nachrichten proper gekleidete Leute sieht. Wir halten die übliche Demonstrations-Folklore für kontraproduktiv." Tolle Idee!

18.08.2014 16:40

Zarafa speichert(e) Passwörter im Klartext

Das bestätigt leider meine Erfahrung, dass PHP-Software von schlechter Qualität ist. Zarafa ist eine freie Exchange-Alternative, hinter der eine deutsche GmbH steckt. Erschreckend, dass auch dann ...

18.08.2014 15:10

(0) Kommentare