python-dsv

CSV Dateien (Comma Seperated Values) sind beliebt um plattform- und softwareunabhängig Daten abzuspeichern und auszutauschen. Eine CSV Datei kann eine Tabelle mit Zeilen und Spalten abbilden. Zeilen sind durch Zeilenumbrüche voneinander getrennt, Spalten durch ein quasi beliebig wählbares Trennzeichen (engl. "delimiter"). Hier kommt bei CSV das Komma zum Einsatz. Die einzelnen Zellen sind meist von Anführungsstrichen umschlossen.

Python ist mit dem Modul "DSV" (Delimiter Seperated Values) in der Lage, unter anderem CSV Dateien zu laden, kann aber beliebige Zeichen als Trennzeichen und zum Umschließen der einzelnen Zellen verwenden.

Weiß man nicht, welches Format die vorliegende Datei hat, bringt DSV passende heuristische Algorithmen mit. Auch integriert ist ein Dialog, der die nötigen Parameter vom Anwender abfragt.

Das Modul DSV ist unter Ubuntu im APT-Paket "python-dsv" zu finden, das sich leicht wie folgt installieren lässt:

sudo apt-get install python-dsv

Die grundlegende Handhabung ist simpel. Das Auslesen einer CSV Datei erledigt der folgende Code:

from DSV import DSV
datei = open('dateiname.csv','r')
data = DSV.importDSV(datei.readlines(), delimiter = ',', textQualifier = '"')

Als Trennzeichen wird hier das Komma (,) verwendet, zum Umschließen von Zellen die doppelten Anführungsstriche (").

Tags: Python