Apache Parquet ist ein spaltenförmiges, komprimiertes Dateiformat, das auf Leistung optimiert ist. Parquet-Dateien sind häufig bei Cloud-Speicheranbietern zu finden, da die Optimierungen des Dateiformats die Kosten in Cloud-Umgebungen im Vergleich zu CSV-Dateien senken.
Parquet ist ein komplexes Binärformat, das zwar für schnelle analytische Abfragen und geringen Speicherplatzbedarf ausgelegt ist, aber nicht leicht lesbar ist, was den Schutz sensibler Daten erschweren kann.
Die DarkShield Files API bietet jedoch die Möglichkeit, Parquet-Dateien nach sensiblen Daten zu durchsuchen und zu maskieren. Das Parquet-Dateiformat lässt viele Datentypen und verschachtelte Datenstrukturen zu; die DarkShield Files API ist in der Lage, gängige primitive Typen wie Strings, Integer, Bytes usw. sowie mehrere Verschachtelungsebenen zu durchsuchen und zu maskieren.
Die Implementierung der Unterstützung des Parquet-Dateiformats in der DarkShield Files API wurde mit Blick auf die Massenverwendung entwickelt. Viele Parkettdateien sind recht groß, aber wenn die Größe jeder Zeilengruppe auf eine vernünftige Größe begrenzt ist (empfohlen werden typischerweise nicht mehr als 128 MB), entspricht der maximal verwendete Speicherplatz eher der Größe der Zeilengruppe als der Größe der gesamten Datei.
Diese Demo finden Sie im Ordner "parquet demo" hier.
Die Demo enthält zwei Parkettdateien, von denen eine eine "flat" Parkettdatei ist, die ein einzelnes Feld für jede Spalte hat, während die andere Datei verschachtelte Felder in einer Spalte enthält.
Wenn Sie sich eine der Parkettdateien in einem Texteditor ansehen, können Sie das Format erkennen – einige Zeichenketten sind sichtbar, aber es gibt auch eine Menge binärer Kodierung.
Weltweite Referenzen: Seit über 40 Jahren nutzen unsere Kunden wie die NASA, American Airlines, Walt Disney, Comcast, Universal Music, Reuters, das Kraftfahrtbundesamt, das Bundeskriminalamt, die Bundesagentur für Arbeit, Rolex, Commerzbank, Lufthansa, Mercedes Benz, Osram,.. aktiv unsere Software für Big Data Wrangling und Schutz! Sie finden viele unserer weltweiten Referenzen hier und eine Auswahl deutscher Referenzen hier.
Partnerschaft mit IRI: Seit 1993 besteht unsere Kooperation mit IRI (Innovative Routines International Inc.) aus Florida, USA. Damit haben wir unser Portfolio um die Produkte CoSort, Voracity, DarkShield, FieldShield, RowGen, NextForm, FACT und CellShield erweitert. Nur die JET-Software GmbH besitzt die deutschen Vertriebsrechte für diese Produkte. Weitere Details zu unserem Partner IRI Inc. hier.
JET-Software entwickelt und vertreibt seit 1986 Software für die Datenverarbeitung für gängige Betriebssysteme wie BS2000/OSD, z/OS, z/VSE, UNIX & Derivate, Linux und Windows. Benötigte Portierungen werden bei Bedarf realisiert.
Wir unterstützen weltweit über 20.000 Installationen. Zu unseren langjährigen Referenzen zählen deutsche Bundes- und Landesbehörden, Sozial- und Privatversicherungen, Landes-, Privat- und Großbanken, nationale und internationale Dienstleister, der Mittelstand sowie Großunternehmen.
JET-Software GmbH
Edmund-Lang-Straße 16
64832 Babenhausen
Telefon: +49 (6073) 711-403
Telefax: +49 (6073) 711-405
https://www.jet-software.com
Telefon: +49 (6073) 711403
Fax: 06073-711405
E-Mail: amadeus.thomas@jet-software.com