Wie man Datenkataloge mit Open Source Tools erstellt

Information ist heutzutage der wertvollste Rohstoff und es ist fast unmöglich, sich ein Unternehmen vorzustellen, das nicht mit großen Mengen an Datensätzen arbeitet. Einkäufe, Warensendungen, Websitebesuche, Werbeanzeigen und viele andere Bereiche sind Quellen. Die Inhalte werden verarbeitet und analysiert, um die Unternehmens-Strategien anzupassen und erfolgreich am Markt zu konkurrieren.

Während die Anzahl der Datensätze steigt, fällt es Unternehmen immer schwerer die Datenmengen zu verwalten und Individuen sowie Teams zu identifizieren, die für einen konkreten Datensatz zuständig sind. Dies ist der Zeitpunkt, an dem nach Lösungen zur Bewältigung der Datenmengen gesucht wird.

DATENKATALOGE LÖSEN WEITVERBREITETE PROBLEME MIT DATENSÄTZEN

Es gibt viele Tools, die das einfache Ermitteln und Verwalten von Datensätzen unterstützen. Darunter fallen insbesondere Datenkataloge.

Ein Datenkatalog ist ein Bestandsverzeichnis von Datensätzen, der auf dem Metdatenlevel arbeitet und diverse Möglichkeiten, wie etwa die Datenermittlung, Data-Lineage oder Datenbesitz bietet. Datenkataloge können folgende Problemstellungen, die in Unternehmen immer wieder anzutreffen sind, lösen:

Information über verfügbare Datensätze fehlt.
Dies ist eine Situation die sich häufig bei größeren Organisationen mit mehreren Abteilungen, welche sich mit Daten beschäftigen, finden lässt. Jedes Team kennt nur die Datensätze, mit dem es direkt arbeitet und eine vollständige Liste aller Datensätze des Unternehmens ist nicht verfügbar. Der Mangel einer Übersicht aller verfügbarer Datensätze kann dazu führen, dass verschiedene Teams dieselbe Arbeit mehrfach erledigen und Duplikate vorhandener Datensätze erzeugen. Ebenso ist es möglich, dass Teams ihre Aufgaben nicht erfüllen können, da die Teammitglieder nicht wissen, dass die benötigten Datensätze überhaupt existieren.
Beschreibungen der Datensätze sind veraltet.
Dieses Problem entsteht in der Regel, wenn die Dokumentation der Daten die niedrigste Priorität hat. Selbst dann, wenn das Unternehmen eine Liste von Datensätzen hat, veraltet die Beschreibung der Daten sehr schnell. Dies führt dazu, dass sich niemand auf die Beschreibungen verlässt und diese nicht genutzt oder dass veralteten Beschreibungen eingesetzt werden, was wiederum zu fehlerhaften Lösungen führt.
Erforderliche Datensätze können nicht gefunden werden.
Eine Liste von Datensätzen zu haben ist wenig hilfreich, wenn dennoch ein konkreter Datensatz nicht ohne Weiteres gefunden werden kann. Bei einigen Unternehmen ist diese Information auf internen Wiki-Seiten verfügbar. Dennoch kann es Probleme bereiten, nach einem Datensatz zu suchen, wenn es davon Hunderte oder Tausende gibt.
Inhaber der Datensätze sind unbekannt.
Wenn ein Unternehmen über hunderte Datensätze und mehrere Teams verfügt, die mit diesen Datensätzen arbeiten, ist es eine Herausforderung, den Besitzer eines bestimmten Datensatzes zu identifizieren. Dies erschwert es, Informationen über Datenaktualität, Änderungsanfragen oder zum Datensatz zu erhalten.
Abhängigkeiten eines Datensatzes können nicht identifiziert werden.
Oft ist es für den Besitzer eines Datensatzes nicht einfach nachzuvollziehen, wer die Daten nutzt. Dies ist ein Problem, wenn der Datensatz geändert werden muss. Ohne die Abhängigkeiten zu kennen, ist es unmöglich festzustellen, wer von dieser Änderung betroffen sein wird.

Hier finden Sie das ganze Whitepaper als PDF.

White Paper

Wie man Datenkataloge mit Open Source Tools erstellt

DATENKATALOGE LÖSEN WEITVERBREITETE PROBLEME MIT DATENSÄTZEN

Data & Insights

Product

Telemetry Data Accelerator

19.06.2024 / München

Event

Unlocking the Power of IoT

28.02.2024 - 29.02.2024 / Berlin / Online

Event

Reply auf der Bosch Connected World 2024