• Home
  • Blog
  • Change Data Capture (CDC) – das Fundament der heterogenen IT
von Peter M. Horbach

Change Data Capture (CDC) – das Fundament der heterogenen IT

Wir haben uns in diesem Blog bereits mehrfach mit den unterschiedlichen Ansätzen befasst, die notwendig sind, um erfolgreich eine heterogene IT mit einer transparenten und gemeinsamen Datenbasis zu betreiben. Eine heterogene IT mit einem Mainframe und den Betriebssystemen z/OS und z/VSE stellt eine besondere Herausforderung dar. Die Gründe liegen auf der Hand und sind in diesem Blog bereits mehrfach beschrieben worden:

  • historisch gewachsene Datenbestände
  • nicht relationale Datenbanksysteme
  • Satz- und Datenstrukturen, die nicht mit modernen Datenbanken kompatibel sind

In der Regel sind die Mainframe basierten Datenbestände für ein Unternehmen unverzichtbar und in der Regel auch die Basis für die Erweiterung der IT in Richtung neuer Systeme und Technologien.

Die Frage stellt sich, wie man diese Datenbestände in eine heterogene IT integrieren kann.

Die erste Stufe des Ausbaus einer monogamen in eine heterogene IT ist Laden (Bulk) der neuen Datenbanken mit den bestehenden Daten des Mainframes. Ab diesem Zeitpunkt sollten sowohl die Daten des Mainframes als auch die Daten der anderen Plattform(en) synchron gehalten werden.

Unterschiedliche Konzepte können hier auftreten:

Master-Slave

Die Daten des Mainframes werden ständig aktualisiert und repliziert auf die neue(n) Plattform(en) - für beispielsweise Analytics, Data Warehouse, Reporting, Cloud oder BigData.

Master-Master

Sowohl die Daten des Mainframes als auch die gleichen Daten der anderen Plattform(en) werden aktualisiert und müssen auf die jeweilige(n) Partnerplattform(en) repliziert werden. Diese bidirektionale Replikation muss gewährleisten, dass alle Änderungen in der Quelle festgestellt und in das Ziel appliziert, aber nicht mehr als Änderung zurückrepliziert wird.

Für beide Konzepte gilt, dass die jeweiligen Plattformdaten möglichst zeitnah aktuell sind.

Eine Grundvoraussetzung für eine aktuelle Entscheidungsfindung und Marktreaktion eines Unternehmens.
Ein regelmässiges Loading (BULK) der Datenbanken ist zu zeitaufwendig, fehleranfällig und vor allem nicht zeitnah

Die Lösung dieses Problems stellt die Fokussierung auf Änderungsdaten und auf die Ermittlung der Änderungsdaten dar: das Change Data Capture.

Change Data Capture (CDC) ist die Methode zur Durchführung des Datenreplikationsprozesses.

Wikipedia beschreibt CDC wie folgt:
CDC ist ein Ansatz zur Datenintegration, der auf der Identifizierung, Erfassung und Bereitstellung von Änderungen an Unternehmensdatenquellen basiert.

tcVISION ist eine Lösung mit einer großen Vielfalt von CDC Prozessoren für die unterschiedlichsten Datenbanken und Plattformen.

Alle nachfolgend aufgeführten Punkte treffen somit in vollem Umfang auf tcVISION zu.

tcVISION CDC erfasst die Änderungen an einem Datenspeicher (Datei oder Datenbank) und repliziert diese Änderungen (UPDATE, DELETE, INSERT) in ein oder mehrere Zielsysteme.

Für eine Mainframe-Umgebung ist es eminent wichtig,  dass CDC mit geringem Overhead durchgeführt wird und die Verarbeitung und Transformation der Änderungsdaten auf der Zielplattform (Linux, Unix, Windows) durchgeführt wird.

Im Falle einer bidirektionalen Replikation unter Beteiligung eines Mainframes als Ziel und CDC auf einer Nicht-Mainframe-Plattform sollte nur das Einspielen (Apply) der Änderungsdaten auf dem Mainframe erfolgen und alle anderen Arbeitsschritte (Verarbeitung und Transformation) auf der Quelle.

Warum ist CDC – im Vergleich zum Kopieren der Daten – so wichtig?

CDC von tcVISION bietet eine Reihe von Vorteilen:

Synchrone Datenverarbeitung

CDC ist eine Echtzeit- bzw. zeitnahe Replikationsform und garantiert Datenaktualität für alle Geschäftsprozesse.
Unser Blog zu diesem Thema:
Realtime oder Near Realtime, das ist oft die Frage

Verbesserte Entscheidungsgrundlagen

Produktive Daten können in Echtzeit (oder geringer Latenz) für analytische Zwecke repliziert werden. Dies können Umgebungen sein für ein Data Warehouse, Cloud-Systeme oder BigData.

Kostenreduktion

Die mit CDC ermittelten Daten werden über das Netzwerk (WAN) in komprimierter Form übertragen. Die Kosten werden somit deutlich reduziert, da nur die Änderungen in komprimierter Form übertragen werden.

Die Vorteile, die Change Data Capture im Vergleich zu Verfahren wie ETL (Extract, Transfer, Load) oder einfaches Kopieren von ganzen Datenbeständen sind somit offenbar.

Ein weiterer wichtiger Punkt bei der Implementation einer Synchronisationslösung ist die Latenz. Wie schnell müssen die Änderungsdaten nach ihrem Entstehen ermittelt und verarbeitet werden? Die Frage stellt sich also: Muss die Ermittlung der Änderungsdaten in Real-Time erfolgen oder reicht eine Near Real-Time Ermittlung aus?

Realtime oder Echtzeit-Verarbeitung bedeutet, dass die Daten unmittelbar nach der Änderung erfasst und verarbeitet werden. Auch hier ist eine Latenzzeit zu erkennen, die sich jedoch in Bereichen unter einer Sekunde bewegt und so dem Begriff Echtzeit nicht entgegensteht.

Ist die gewählte Verarbeitung für die Datensynchronisation auf archivierte Logdateien bzw. Journals ausgelegt, sprechen wir von einer Near Realtime Verarbeitung. Diese Art der Verarbeitung wird oft in den Bereichen Analytics, Reporting und BigData eingesetzt.

tcVISION bietet sowohl Capture Methoden für Real-Time / Near Real-Time CDC als auch Methoden für Log Verarbeitung an. Diese seien hier noch einmal erwähnt:

Real-Time / Near Real-Time

Operating system Method Source
z/OS Logstreams CICS, Shared VSAM, tcVISION Logstreams
Active Logs Db2, IMS, ADABAS,DATACOM, IDMS
z/VSE tcVISION collector VSAM, Db2, DLI
Active Logs ADABAS, DATACOM, IDMS
Windows/UNIX, Linux Active Logs Db2, MS SQL-Server, Oracle, MySQL/MariaDB, ADABAS, PostgreSQL and more

Log Verarbeitung

Operating system Method Source
z/OS Archive Logs* Db2, IMS, ADABAS,DATACOM, IDMS
z/VSE Archive Logs* ADABAS, DATACOM, IDMS
Windows/UNIX, Linux Archive Logs* Db2, MS SQL-Server, Oracle, MySQL/MariaDB, ADABAS, PostgreSQL and more

*Archivierte Logs können entweder auf dem Mainframe oder auf einer Windows, Unix, Linux Plattform verarbeitet werden.

tcVISION ist eine extrem flexible, systemübergreifende Lösung für die zeitnahe, bidirektionale Datensynchronisation und Replikation auf Basis von Änderungsdaten:

  • Datenaustausch wird zur Single-Step-Operation.
  • Der Einsatz von Middleware oder Message Queueing ist nicht notwendig.
  • Der Datenaustausch erfolgt im Raw-Format in komprimierter Form und reduziert sich auf das Delta von Änderungsdaten.
  • Daten können in Echtzeit, zeitgesteuert oder ereignisgesteuert sowohl uni- als auch bidirektional bewegt werden.

Wenn Sie mehr erfahren wollen, setzen Sie sich mit uns in Verbindung oder melden Sie sich für unseren Newsletter an.

Peter M. Horbach ist mit über 40 Jahren IT Erfahrung seit vielen Jahren in den Bereichen Datensynchronisation und Replikation tätig. Für BOS Software pflegt er Kontakte zu den internationalen Partnern und schreibt den Blog.

zurück zur Übersicht