Zum Inhalt springen

Revolution im Bereich der Multimodal-KI: Das neue ERNIE-Modell von Baidu

Revolution im Bereich der Multimodal-KI: Das neue ERNIE-Modell von Baidu

Baidu hat sein neues Modell ERNIE vorgestellt, das als Revolution im Bereich der multimodalen künstlichen Intelligenz gilt und in bestimmten Tests Modelle wie GPT und Gemini übertrifft. Dieses Modell ist speziell darauf ausgelegt, Daten zu verarbeiten, die von textzentrierten Modellen oft übersehen werden.

Herausforderungen bei der Verarbeitung komplexer Daten

Viele Unternehmen stehen vor großen Herausforderungen, wenn es darum geht, wertvolle Informationen aus nicht-textlichen Daten wie technischen Zeichnungen, Videoaufnahmen aus der Produktion, medizinischen Scans und Logistik-Dashboards zu extrahieren. Hier kommt das Modell ERNIE-4.5-VL-28B-A3B-Thinking ins Spiel, das als optimale Lösung für diese Herausforderungen entwickelt wurde.

Ingenieure interessieren sich nicht nur für die multimodalen Fähigkeiten des Modells, sondern auch für seine einzigartige Struktur. Es wird als „leichtgewichtig“ beschrieben, da es nur drei Milliarden Parameter während des Betriebs aktiviert. Diese Strategie zielt darauf ab, die hohen Kosten der Inferenz zu reduzieren, die oft die Skalierung von KI-Projekten behindern.

Überlegenheit des Modells in der Analyse komplexer visueller Daten

Das ERNIE-Modell beweist seine Effizienz bei der Verarbeitung dichter nicht-textlicher Daten. Zum Beispiel kann es einen „Spitzenzeiterinnerungsplan“ interpretieren, um die besten Besuchszeiten zu finden, eine Herausforderung, die Ressourcenplanungsprobleme in der Logistik oder im Einzelhandel widerspiegelt.

Das Modell zeigt auch herausragende Fähigkeiten in technischen Bereichen, wie das Lösen von elektrischen Schaltkreisen mit Ohmschen und Kirchhoffschen Gesetzen. Die Zukunft dieses Modells könnte dabei helfen, Designs zu überprüfen oder komplexe Zeichnungen neuen Mitarbeitern zu erklären.

Vom Erkennen zur Automatisierung: Der radikale Wandel in der KI

Einer der Hauptherausforderungen für KI in Unternehmen ist der Übergang vom Erkennen zur Automatisierung. Das ERNIE 4.5-Modell behauptet, diese Herausforderung zu bewältigen, indem es visuelle Anleitung mit der Nutzung von Werkzeugen kombiniert.

Das Modell kann Aufgaben ausführen, wie das Auffinden aller Personen, die Anzüge in einem Bild tragen, und deren Koordinaten im JSON-Format zurückgeben, was die visuelle Inspektion in Produktionslinien oder die Überprüfung von Standortbildern für Sicherheitszwecke erleichtert.

Förderung der Geschäftsinformationen durch multimodale KI

Das neue Modell von Baidu zielt auch auf Unternehmensvideobibliotheken ab, von Schulungssitzungen bis hin zu Sicherheitsaufnahmen. Es kann alle auf dem Bildschirm angezeigten Untertitel extrahieren und mit ihren genauen Zeitstempeln verknüpfen.

Das Modell zeigt auch ein zeitliches Bewusstsein, indem es bestimmte Szenen (wie Aufnahmen auf einer Brücke) durch visuelle Beweise analysiert. Das klare Ziel ist es, große Videobibliotheken durchsuchbar zu machen, sodass Mitarbeiter den genauen Moment finden können, in dem ein bestimmtes Thema in einem zweistündigen Seminar diskutiert wurde.

Fazit

Die Entwicklungen, die das ERNIE-Modell in die Welt der künstlichen Intelligenz bringt, sind ein wichtiger Schritt in die Zukunft, da diese Modelle in der Lage sind, zu sehen, zu lesen und Entscheidungen in spezifischen Geschäftskontexten zu treffen. Obwohl die Hardwareanforderungen für den Betrieb dieser Modelle für einige ein Hindernis darstellen könnten, machen die potenziellen Vorteile es für große Unternehmen notwendig, diese Investition gegen die erwarteten Gewinne in Effizienz und Analysefähigkeit abzuwägen.