Big data abstract digital concept

Die Transformation der Firmen IT-Infrastruktur für die neue Ära des Big Data und High Performance Computing

Technologie Maximieren Sie den Unternehmenswert durch schnellere, tiefere und hochwertigere Einblicke, indem Sie die IT-Infrastruktur in eine Infrastruktur umwandeln, die sowohl Big Data Analytics (BDA) als auch High Performance Computing (HPC) zuverlässig und effizient verarbeiten kann. Dieser Artikel beschreibt die Vorteile der Entwicklung hin zu einer Software-Definierten Infrastruktur (SDI) ausgehend von traditionell diskreten Rechenumgebungen. Eine SDI ist eine einzige, effizientere und produktivere gemeinsame Infrastruktur für HPC- und BDA-Workloads sowie eine neue Generation von Born-in-the-Cloud-Workloads. Als mögliches Beispiel einer SDI Lösung wird die IBM Software Defined Infrastructure (SDI) dargestellt.

SMA

SMA

Die Integration von High Performance Computing und Big Data Analytics

Getrieben von der Notwendigkeit für schnelle und qualitativ hochwertigere Ergebnisse verschwimmen die Grenzen zwischen rechenintensiven und datenintensiven Workloads. Da sich die Datenerfassungstechniken verbessern und die Simulation immer ausgefeilter wird, werden in jeder Phase der analytischen Pipeline grössere Datenmengen aufgenommen, erzeugt und gespeichert, von der Dateneingabe über die Aufbereitung und Simulation bis hin zur nachgelagerten Analyse, Visualisierung und Interpretation. In allen Branchen sind Unternehmen bestrebt, den maximalen Nutzen aus ihren Daten zu ziehen, was eine schnellere, skalierbarere und kostengünstigere IT-Infrastruktur erfordert.

Während wir grössere Datensätze aus allen Quellen, wie Sensoren, Instrumente, Logdateien usw. sammeln, verarbeiten und speichern, sehen HPC-Workloads zunehmend wie grosse Daten-Workloads aus. Grosse Daten-Workloads werden immer rechenintensiver, sowohl in der Leistung als auch in der Grösse, und sehen eher wie HPC-Workloads aus, insbesondere in den Bereichen Cybersicherheit, Betrugserkennung und soziale Datenanalyse. Beide Arten von Workloads stellen zunehmend ähnliche Anforderungen an IT-Infrastrukturen, so dass die gleiche Infrastruktur beides unterstützen kann.

Die neue Generation leistungsstarker und datenintensiver Workloads

In der Automobilindustrie verwenden Ingenieure HPC-Software, um Fahrzeugkollisionen zu simulieren und anschliessend Crashtests durchzuführen und Daten von Zehntausenden von Sensoren für weitere Analysen zu sammeln. Zunehmend analysieren sie grosse Datenmengen wie Feldfehlerdaten, Service- und Garantiedaten und Echtzeit-Telemetrie von Fahrzeugen im Einsatz. Durch die Erweiterung von HPC mit grosser Datenanalyse können Hersteller eine tiefere Analyse von Petabytes an Daten erhalten, um bessere Produkte zu entwickeln. Im Gesundheitswesen und in den Biowissenschaften sind genomische Medizin-Pipelines grosse und anspruchsvolle Workflows mit Dutzenden von rechen- und datenintensiven Aufgaben, die sich über Next Generation Sequencing (NGS), Translational Medicine und Personalized Healthcare erstrecken. Um neue Behandlungsmethoden zu entwickeln, setzen Institutionen auf HPC und immer grössere Datentechnologien wie Apache Spark, um Hunderttausende von Jobs zur Analyse von Petabytes von Daten, einschliesslich Text und Bildern, die oft über Zehntausende von Dateien verteilt sind, auszuführen.

Finanzdienstleistungsunternehmen sind bestrebt, den Wert ihrer bestehenden Geschäfte zu maximieren und gleichzeitig neue Einnahmequellen zu erschliessen. Unternehmen wie Fannie Mae analysieren zunehmend sowohl strukturierte als auch unstrukturierte Daten, einschliesslich E-Mail- und PDF-Dateien, um Gewinne und Anlageergebnisse zu verbessern sowie Muster und Trends in den Aktivitäten ihrer Kunden und/oder Mitarbeiter zu finden, die auf Investitionsmöglichkeiten oder Betrug hinweisen.

Der Bedarf an einer gemeinsamen Rechen- und Dateninfrastruktur

Zur Unterstützung dieser anspruchsvolleren rechen- und datenintensiven Workloads fordern Unternehmen eine schnellere, skalierbarere und leistungsfähigere Informatik-Infrastruktur. Das Hinzufügen weiterer Hardware ist aufgrund von Kosten, Komplexität und dem Risiko von Cluster- und Datenwucherungen nicht immer möglich oder nachhaltig. Der Aufbau einer gemeinsamen Infrastruktur für beide Arten von Workloads ist wünschenswert und machbar.

In einem gemeinsamen Papier von Forschern der Indiana University und der Rutgers University kamen sie zum Schluss, dass HPC und Big Data Analytics viele Gemeinsamkeiten aufweisen, und die Verwendung eines gemeinsamen, einheitlichen Infrastruktur-Stacks unterstützen.

Die Forscher kamen zu dem Schluss, dass sich HPC und grosse Datenmengen die gleiche Infrastruktur teilen können, wodurch die Notwendigkeit separater IT-Silos entfällt. Durch die gemeinsame Nutzung können auch die Datenkosten erheblich gesenkt werden, so dass die Daten einmalig gespeichert und auf verschiedene Workloads verteilt werden können. Die Konsolidierung von Rechen- und Speichersilos vereinfacht die Systemadministration, um die Kosten weiter zu senken und die Effizienz zu steigern.

Es gibt auch Herausforderungen bei der Kombination mehrerer Workloads auf einer einzigen Infrastruktur, einschliesslich der Verwaltung von Service Level Agreements (SLAs), der Harmonisierung von Workload- und Ressourcenmanagern und der Unterstützung verschiedener Hardware- und Dateisysteme vor Ort und in der Cloud. Wie kommt ein Unternehmen nun also zu dieser geteilten, gemeinsamen Infrastruktur über verschiedene Hardware-Plattformen hinweg, entweder on-premise bzw. in der öffentlichen und hybriden Cloud?

Einführung des Software-Defined Infrastructure Approaches

In den letzten Jahren haben IT-Organisationen die Grenzen traditioneller IT-Architekturen erkannt. Ein Siloansatz fördert tendenziell die ineffiziente Nutzung von und den Zugang zu Rechenressourcen, was zu künstlichen Kapazitätsengpässen führt, selbst wenn die Gesamtkapazität ausreicht. Die schnelle Einführung grosser Daten-Frameworks wie Hadoop MapReduce und Apache Spark, die von einer maximalen Nutzung der Ressourcen parallel profitieren, hat die Notwendigkeit eines einheitlicheren IT-Ansatzes verstärkt.

Als Antwort darauf suchen Unternehmen nun nach einer Software Defined Infrastructure (SDI), einer dynamischen ressourcen-, arbeits- und datenbewussten Umgebung, die sich automatisch an die Anforderungen von Echtzeit-Rechenbedürfnissen anpasst. Eine SDI optimiert die Platzierung und Ausführung von Workloads und orchestriert Infrastrukturressourcen nach Bedarf, um SLAs zu erfüllen. Es ist plattformunabhängig und unterstützt eine breite Palette von Hardware, Frameworks und APIs.

Die Entwicklung zu einer SDI ermöglicht es Ihrem Unternehmen, HPC- und grosse Datenanwendungen sowie eine neuere Generation von Born-in-the-Cloud-Frameworks auf einer einzigen, effizienteren, schnelleren und agileren Infrastruktur zu verwalten.

Die Vorteile von SDI

Eine SDI unterstützt sowohl rechen- als auch datenintensive Workflows besser als siloisierte IT-Architekturen durch:

  • Unterstützung von Multi-Tenancy, damit unterschiedliche Unternehmen und Anwendungen die Infrastruktur in einer gut organisierten Weise gemeinsam nutzen können. Die gemeinsame Nutzung von Ressourcen senkt die Kosten und ermöglicht es der IT-Abteilung, Ressourcen zur Unterstützung neuer Geschäfte und oder zur Unterstützung von rechenintensiven Anforderungen anzupassen. SLAs regeln die Ressourcennutzung und gewährleisten Fairness für alle.
  • Optimierung der Nutzung von Computing-Ressourcen aller Art für bis zu 150x schnellere Time-to-Results
  • Skalierung zur Verarbeitung massiver Datei- und Jobzahlen und extremer I/O. In einigen Branchen wie den Biowissenschaften kann ein einziger Workflow bis zu einer Million Dateien erstellen und darauf zugreifen. SDI unterstützt eine Vielzahl von Speicherarchitekturen und -geräten, um mit den massiven I/O-Anforderungen Schritt zu halten.

 

HPC-Software-Defined

Abbildung: Beispiel einer SDI Infrastruktur

IBM Software-Defined Infrastructure (SDI)-Lösungen verbessern die Agilität, Produktivität, Effizienz und Qualität von Unternehmen.

Viele Kunden erkennen bereits heute die Vorteile einer SDI. In der Abbildung ist als Beispiel eines Gesamt-SDI-Portfolios die IBM® Software Defined Infrastructure Lösungen bestehend aus IBM SDI Computing und IBM Spectrum Storage™ Lösungen aufgeführt, welche nachweislich mit den anspruchsvollsten Workloads zu Rande kommen.

Das IBM Spectrum Computing Portfolio (ehemals IBM Platform Computing™) bietet ausgereifte und bewährte Workload- und Ressourcenmanagementlösungen – IBM Spectrum LSF, IBM Spectrum Symphony™ und IBM Spectrum Conductor™ – für viele der weltweit führenden Unternehmen wie Red Bull Racing, Wellcome Sanger Trust, Cypress Semiconductor und die CME Group. IBM Spectrum Storage ist das erste softwaredefinierte Speicherportfolio, das zur Vereinfachung und Beschleunigung des Speichermanagements entwickelt wurde.

IBM Software Defined Infrastructure hat Forbes 2000-Kunden sowie der Citigroup dabei geholfen, ihre Analysen bis zu 100-mal zu beschleunigen und gleichzeitig die Infrastrukturkosten durch eine Kombination von on-premise und cloud-based Infrastrukturen zu senken und gleichzeitig die sich ändernden Geschäftsanforderungen schneller zu erfüllen.

Schlussfolgerungen

Durch den Einsatz von Software Defined Infrastructure (SDI) können Sie Analysen skalieren und beschleunigen, selbst wenn das Volumen, die Geschwindigkeit und die Vielfalt der Daten weiter zunehmen. Kunden aus vielen Branchen nutzen das IBM Software Defined Infrastructure Lösungsportfolio – IBM Spectrum Computing und IBM Spectrum Storage Software – für mehr IT-Agilität, Produktivität und Effizienz sowie für schnellere und bessere Einblicke in Daten aller Art.

Dieser Artikel basiert auf Informationen von IBM, verfasst durch Michael Gähwiler, WIRD Group. WIRD Group ist ein führender Anbieter von IBM HPC Solutions und IBM Platinum Business Partner für die Schweiz.

 

Unbenannt