pyhyphen

Bei Silbentrennung steht dem Python-Programmierer die Bibliothek pyhyphen zur Seite, die jedoch noch keinen Einzug in Debian und Ubuntu gehalten hat. Man muss sie also selbst herunterladen, bauen und installieren.

Die Verwendung ist relativ einfach:

import hyphen
h = hyphen.hyphenator()
h.pairs(u'thunderstorm')

Der letzte Aufruf gibt das silbengetrennte Ergebnis zurück:

[[u'thun', u'derstorm'], [u'thunder', u'storm']]

Die Sprache kann man optional beim Erstellen des Hyphenators angeben:

h = hyphen.hyphenator('de_DE')

Spezifiziert man hier nichts, wird Englisch als Standard angenommen.

Um zusätzliche Sprachen zu installieren, werden die nötigen Funktionen direkt mitgeliefert. Sie laden das Sprachpaket aus dem Internet und installieren es automatisch. Dazu sind jedoch "root"-Rechte erforderlich.

Hat man Python als "root" gestartet, kann man auf diese Weise Sprachen installieren:

from hyphen import dictools
dictools.install('de_DE')
dictools.install('it_IT')

Anschließend stehen diese dann bei der Initialisierung des Hyphenators zur Verfügung:

import hyphen
h = hyphen.hyphenator('de_DE')
h.pairs(u'Autowerkstattmechaniker')
[[u'Au', u'towerkstattmechaniker'], [u'Auto', u'werkstattmechaniker'], [u'Autowerk', u'stattmechaniker'], [u'Autowerkstatt', u'mechaniker'], [u'Autowerkstattme', u'chaniker'], [u'Autowerkstattmecha', u'niker'], [u'Autowerkstattmechani', u'ker']]

Tags: Python