KI in Unternehmen: Was kann die Cofenster-Software?
Shownotes
Sind Ella, Milo und Theo wirklich „KI-Agenten”? Die Software-Angebote kommen vom Startup Cofenster. Das junge Unternehmen will damit Unternehmen ab 500 Mitarbeiter:innen erreichen, die die Software in ihren Marketing- und Kommunikationsabteilungen nutzen sollen.
Aber wie selbstständig arbeiten die Tools? Und welche Auswirkungen haben sie möglicherweise auf den Arbeitsmarkt? Diese und weitere Fragen beantwortet CEO Tom Vollmer in dieser Episode. Moderiert wird sie von Host Stella-Sophie Wojtczak.
Zu den Abo-Angeboten: https://go.t3n.de/t3n-abo
Hinweis: Dieser Podcast wird von einem Sponsor unterstützt. Alle Infos zu unseren Werbepartnern findest du hier.
Transkript anzeigen
Stella: Schön, dass ihr wieder eingeschaltet habt, zu einer neuen Folge von t3n Interview.
Stella: Bei mir ist heute zu Gast Tom Vollmer. Er ist Gründer und CEO vom Startup Co-Fenster.
Stella: Und das Unternehmen bietet, sehr vereinfacht gesagt, automatische Lösungen an,
Stella: für die Videoerstellung.
Stella: Verschiedene Software mit verschiedenen menschlichen Namen, da kommen wir auch gleich noch zu.
Stella: Und das Ganze funktioniert mithilfe von künstlicher Intelligenz.
Stella: Da werden eben verschiedene Videoclips erstellt. Tom ist heute auch bei mir
Stella: bei t3n im Videocast-Studio zu Gast. Moin Tom.
Tom: Ich danke dir für die Einladung.
Stella: Ja, cool, dass du es hier nach Hannover geschafft hast. Ich würde gerne einmal
Stella: so anfangen. Welche drei KI-Anwendungen habt ihr denn aktuell?
Tom: Also wir haben drei KI-Assistenten. Das ist der Milo, die Ella und der Theo.
Tom: Und der Milo macht aus langen Videos automatisiert Social-Media-Clips.
Tom: Die Ella macht automatisiert authentische Videos von Mitarbeitenden,
Tom: von Influencern für die Unternehmenskommunikation, fürs Marketing.
Tom: Und der Theo hört sich ein bisschen an wie Voodoo, aber macht aus Texten Videos.
Tom: Da können wir gleich vielleicht nochmal ein bisschen zur Technik sprechen,
Tom: wie das funktioniert. Aber wir kennen das, wir sind im Onboarding,
Tom: kriegen dann lange PDFs, die wir lesen müssen oder PowerPoints.
Tom: Die können wir da reinpacken und dann macht er wie mit Geisterhand daraus ein Video.
Stella: Mit Geisterhand ist es ja nicht, sondern mit künstlicher Intelligenz.
Stella: Aber genau dazu kommen wir jetzt auch im Laufe des Podcasts,
Stella: wo wir eben besprechen werden, was können eure Anwendungen, was ist das Ganze
Stella: auch preislich für Unternehmen, für wen ist das überhaupt geeignet und natürlich
Stella: auch die kritischen Punkte.
Stella: Ihr habt selber einen Agenturhintergrund, du hast einen Agenturhintergrund.
Stella: Ist es eigentlich, wie werdet ihr in der Branche angenommen,
Stella: was sind da vielleicht auch Herausforderungen, wenn man schaut auf OpenAI,
Stella: die auch von Text-to-Video natürlichen Agenten haben.
Stella: Also, wir haben viele Punkte, die wir heute rund um euer Start-up besprechen
Stella: werden. Aber ich würde gerne erstmal einmal so anfangen.
Stella: Wieso habt ihr eigentlich diese menschlichen Namen gewählt für eure Produkte?
Tom: Am Ende des Tages, wenn wir unsere Produkte vorstellen, erklären wir es auch
Tom: mal ein bisschen so und sagen, das ist eigentlich wie so ein Werkstudent oder
Tom: eine Werkstudentin, die du einkaufst.
Tom: Und das ist ein autonomer Agent, der arbeitet für dich und dein Team 24-7,
Tom: nimmt auch keinen Urlaub, macht keine Pausen und ist immer einsatzbereit.
Tom: Und weil es eben diesen Werkstudenten-Charakter hat, haben wir uns überlegt,
Tom: da müssen die Produkte auch Namen bekommen.
Tom: Und dementsprechend haben wir den menschlichen Namen gegeben,
Tom: damit die auch als erweitertes Teammitglied gesehen werden und nicht eben als Software.
Tom: Weil da ist ein Riesenunterschied zwischen historisch gesehen,
Tom: wie Software gebaut worden ist und jetzt heutzutage Agenten,
Tom: die tatsächlich Workflows end-to-end erstellen und nutzen. Und wie die Namen
Tom: zustande kommen, es hat angefangen mit der Ella, weil wir den Namen super schön fanden.
Tom: Milo ist aus dem Freundeskreis, es wurde kleiner Sohn geboren, der hieß Milo.
Tom: Und der Theo, Text to Video, passt auch super, der wurde dann aufgenommen.
Tom: Also wir erweitern die Familie konsequent.
Stella: Wer sind eigentlich bisher eure Kunden?
Tom: Also wir arbeiten mit dem Mittelstand und mit Großkonzernen.
Tom: Das heißt, wir haben aktuell so 30 Prozent vom DAX.
Tom: Da ist dann irgendwie eine Continental dabei oder eine TUI. und aber auch viele
Tom: über 350 mittelständische Unternehmen,
Tom: das sind dann so die genannten Hidden Champions aus dem Schwarzwald, aus NRW,
Tom: aber hauptsächlich eigentlich so mit Unternehmen ab mindestens 500 Mitarbeitenden
Tom: aufwärts, weil erst da sich das eigentlich lohnt, tatsächlich KI-Agenten auch
Tom: einzuführen, weil ein gewisser Videobedarf im Marketing, im HR,
Tom: auch in der internen Kommunikation vorhanden ist.
Stella: Wo du es gerade ansprichst, du hast den Bedarf jetzt genannt,
Stella: der für Unternehmen da ist. Und ich glaube, viele Videoproduktionen,
Stella: die kennen das da beispielsweise auch, Social-Videos etc.
Stella: Das ist was, wo regelmäßig Aufträge reinkommen, dass eben Unternehmen Instagram,
Stella: Tiktok, Youtube bespielen wollen.
Stella: Und das ist ja auch was, was ihr beispielsweise mit Milo oder natürlich auch
Stella: mit Theo erreichen wollt, dass die Unternehmen eben automatisch dafür,
Stella: für diese Videos, für diese Plattform-Videos erstellen können.
Stella: Damit macht ihr ja eigentlich ziemlich vielen auch kleinen Unternehmen das Business-streitig, oder?
Tom: Absolut. Davon lebt auch ein gesunder Markt, dass es neue Player gibt,
Tom: die bessere Lösungen auf den Markt bringen und dadurch eine gesunde Competition existiert.
Tom: Aber klar, ich meine, jede neue Innovation greift natürlich irgendwo ein gewisses Geschäftsfeld an.
Tom: Das ist aber auch sehr bewusst von uns gewählt. Ich meine, wir haben selber
Tom: Agentur-Hintergrund. Wir haben früher, bevor wir gestartet sind,
Tom: selber eine Agentur gegründet und aufgebaut und dann auch verkauft.
Tom: Insofern, ich kenne das Agenturgeschäft sehr gut und ich weiß auch,
Tom: dass ich da viel tun muss, weil doch noch sehr viel händisch passiert.
Stella: Du hast es gerade angesprochen, es passiert händisch, du kennst das Agenturgeschäft.
Stella: Ist es denn wirklich so, dass auch die Kombination aus euren dreien Assistenten
Stella: quasi die Zusammenarbeit mit einer Agentur ersetzt?
Tom: Noch nicht. Es gibt sehr viele Videos, die wir noch nicht abdecken können.
Tom: Also nehmen wir mal an, VW bringt ein neues Auto raus und möchte ein Launch-Commercial
Tom: machen, TVC, also fürs Fernsehen.
Tom: Dann ist das ein Produktionsvolumen, ein Qualitätsanspruch, den wir aktuell
Tom: mit noch keinem unserer Agenten abdecken können.
Tom: Aber wir können aktuell schon 55, 60 Prozent des anderen Videobedarfs,
Tom: die jetzt ein VW mal als Beispiel hat, abdecken. Und das entwickeln wir halt konstant weiter.
Stella: Und jetzt muss man ja auch dazu sagen, das Beispiel, was du gerade gebracht
Stella: hast, TV-Spots etc., KMUs, die zu eurer Zielgruppe gehören, die haben jetzt
Stella: in der Regel weniger international gespielte TV-Spots.
Stella: Das heißt, das ist ja schon etwas, wo ihr wahrscheinlich sehr viel Bedarf in
Stella: eurem Produkten abdecken wollt.
Tom: Absolut. Und das auch schon tun. Also wir sehen das auch in der Nutzung.
Tom: Also wenn wir uns den KMU angucken, du hast es jetzt mal angesprochen,
Tom: wie kannst du 500, 600 Mitarbeitende, vielleicht auch eine Abfallwirtschaft tätig.
Tom: Also so mal wirklich ganz klassischer KMU-Case.
Tom: Dann haben die zum Beispiel im Marketing brauchen die einzelne Videos,
Tom: im HR brauchen die Videos, weil die zum Beispiel neue Talente gewinnen wollen.
Tom: Also die brauchen Videos, wie sich zum Beispiel Fahrerinnen vorstellen,
Tom: warum arbeite ich hier eigentlich gerne, also im Employer Branding.
Tom: Das waren vorher Cases, da wurde dann eine lokale Agentur angeheuert,
Tom: um mal zwei, drei Videos zu machen für 10.000 Euro.
Tom: Und jetzt nutzen die Teams da die Ella und produzieren 20, 30 Videos im Jahr
Tom: für einen Bruchteil der Kosten.
Tom: Und das Gleiche zieht sich auch durch in der Unternehmenskommunikation.
Tom: Also wie kommunizieren wir eigentlich mit unseren Mitarbeitenden heutzutage?
Tom: Das ist ja auch einfach eine riesen Generationswende. Wir haben einen Teil der
Tom: Gitten Rente in den nächsten zehn Jahren und da haben wir ganz viele junge Menschen, die nachkommen.
Tom: Die sind es gewöhnt, Videos zu konsumieren. Jetzt auf einmal kommen die uns
Tom: daneben und alles ist in Text, E-Mails und Intranet etc.
Tom: Und da sehen wir halt wirklich einen riesen Vorteil auch von Videos für den
Tom: Kunden, weil die auf einmal auch diese junge Zielgruppe intern abholen können,
Tom: weil es ist so, auf Englisch sagt man immer so, communication moves your people
Tom: and people move your companies.
Tom: Da ist ja sehr viel dahinter. Wir müssen unsere Mitarbeitenden abholen,
Tom: gerade in der digitalen Transformation.
Tom: Und wenn wir unsere PowerPoints, unsere Internet-Messages nicht lesen,
Tom: das machen die wenigsten heutzutage, verlieren wir viele Menschen auf diesem Weg.
Tom: Und das ist halt eine wirklich große Priorität, gerade auch für den Mittelstand, gut zu kommunizieren.
Tom: Und das Video halt elementar, aber war immer teuer. Aber da sind wir dran.
Stella: Wenn du sagst, ihr seid da dran, kannst du mir mal ein Beispiel nehmen,
Stella: wenn ich jetzt ein KMU bin Und beispielsweise alle drei, also Text-to-Speech
Stella: mit Theo, Ella mit eher der konzeptionellen Erstellung und Milo,
Stella: der dann eben aus bestehenden Videos, Kurzvideos erstellt.
Stella: Wenn ich die drei nutze, was bin ich da jährlich los?
Tom: Kommt so ein bisschen auf die Größe vom Unternehmen an, wie viele User auch
Tom: auf unsere KI-Agenten zugreifen.
Tom: Aber du bist so zwischen 10.000 und 20.000 Euro im Jahr, zahlst du dafür.
Tom: Nach oben sind da keine Grenzen gesetzt. Also gerade bei Konzernen,
Tom: da hast du natürlich viel mehr Abteilungen.
Tom: Also wenn wir mal einen Konzern angucken, der hat eine Marketingabteilung Deutschland
Tom: und dann Frankreich und England und hat eine HR-Abteilung Deutschland und so weiter und so fort.
Tom: Also da gibt es nach oben noch deutlich mehr Luft. Aber so ein KMU,
Tom: wovon du gesprochen hast, dann zahlen die vielleicht 15.000 Euro im Jahr und
Tom: produzieren damit so im Schnitt über drei, vier Abteilungen hinweg vielleicht 50, 60 Videos.
Stella: Jährlich und das ist dann auch nicht begrenzt, dass ich quasi Credits wie beispielsweise
Stella: auf verschiedenen Plattformen kaufen muss, sondern ich habe dann das Abo-Modell
Stella: abgeschlossen und kann damit unbegrenzt rein theoretisch produzieren.
Tom: Du kannst unbegrenzt produzieren und wir bieten auch immer mit drin in diesen
Tom: Abo-Modellen ein Customer-Success-Team.
Tom: Also du hast immer noch einen Mensch, der dir beisteht, vielleicht das falsche
Tom: Wort in diesem Kontext, aber einen Mensch, der dich unterstützt,
Tom: also praktisch im Onboarding dir hilft, einen Contentplan fürs Jahr zu machen,
Tom: damit du diese KI-Agenten auch wirklich gut nutzen kannst.
Tom: Weil wenn du im KMU bist und jetzt hast du vielleicht ein Transformationsprojekt,
Tom: Dann stehst du davor und sagst, okay, wie machen wir das jetzt?
Tom: Wir haben über 350 KMUs, die unsere Assistenten nutzen für ähnliche Themen.
Tom: Wie führe ich ein neues Intranet ein? Wie digitalisiere ich unser ERP-System
Tom: als Beispiel? Oder wie mache ich Marketing für unser neues Produkt?
Tom: Das heißt, unser Customer Success Team berät dich auch und zeigt dir,
Tom: hey, Stella, für dein Unternehmen, das sind deine Ziele.
Tom: Wir haben jetzt hier bei fünf anderen Unternehmen mal ähnliche Projekte gemacht.
Tom: Die und ihre Art von Videos haben die gemacht, so haben die die ausgestrahlt. Das geben wir mit.
Tom: Also es ist nichts, was da oben drauf kommt, das eine Beratungsleistung ist,
Tom: sondern es ist wirklich dabei, weil wir halt daran glauben, dass gute Technologie
Tom: hervorragend funktioniert, also es sehr schön ist, einen Menschen zu haben,
Tom: mit dem man auch mal schnacken kann, der ein bisschen hilft.
Stella: Ich glaube mal zur Einordnung, du hattest es einmal kurz angerissen.
Stella: Eine Videoproduktion, rechnen wir mal fünf bis zehn Kurzvideos,
Stella: würde ich sagen, liegt im niedrigen fünfstelligen Bereich.
Stella: Das heißt, das unterbietet ihr ja dann mit 50 bis 60 Videos deutlich. Von den Kosten her.
Tom: Zehnmal, 15mal, 20mal günstiger. Und ich meine dadurch, dass wir die Videos
Tom: nicht begrenzen, wir haben auch Kunden, die machen hunderte Videos pro Monat.
Stella: Ganz schön viel Rechenleistung, die da gebraucht wird.
Tom: Da geht relativ viel Rechenleistung rein, aber dann zahlst du 15.000 Euro und machst 1.000 Videos.
Tom: Da sind wir dann im 100x Ersparnisbereich. Also das ist natürlich von bis.
Tom: Das kommt natürlich auch auf die Unternehmen drauf an, wie sie das nutzen,
Tom: aber wir sehen da schon einen extremen Anstieg.
Stella: Kommen wir doch mal jetzt zum Thema, wir haben uns einmal umrissen,
Stella: welche Unternehmen habt ihr als Kunden, Zielgruppen etc.
Stella: Kommen wir jetzt mal genau zu dem Thema Rechenleistung. Wie funktioniert das Ganze?
Tom: Vielleicht, wir fangen mal oben an. Ich mache das mal eigentlich ganz gerne
Tom: so vom Generellen und dann in Spezifische rein.
Tom: Generell, wir haben eine Cloud-Render-Engine gebaut.
Tom: Das bedeutet, wir haben praktisch, ich beschreibe das immer so ein bisschen
Tom: als die Gehirn, was wir selber entwickelt haben.
Tom: Und daran sind dann verschiedene LLMs, Large Language Models angeschlossen.
Tom: Also da arbeiten wir mit OpenAI zusammen, mit Menthorphic, Mistral und so weiter
Tom: und so fort, die dann einzelne Jobs praktisch übernehmen.
Tom: Und diese Render-Engine entscheidet jetzt zum Beispiel, nehmen wir mal eine
Tom: Milo. Wir haben ein langes Podcast-Interview wie dieses hier,
Tom: haben ein 20-minütiges Video oder vielleicht ein Leadership-Interview mit unserem CEO.
Tom: Schmeißen das rein und schreiben, lieber Milo, baue mir daraus bitte Shorts für Social Media.
Tom: Die sollen nicht länger als 30 Sekunden sein und ich möchte die Highlights haben,
Tom: wo die Stella dem Tom kritische Fragen stellt.
Stella: Also kurze Einordnung, ich gebe einen Prompt mit.
Tom: Du gibst das Video mit und den Prompt bei dem Milo und dann nimmt unser Render
Tom: Engine deinen Prompt auf, versteht den und teilt praktisch dann diesen Video-Job
Tom: in verschiedene kleine Einzelteile.
Tom: Das heißt, erstmal müssen wir verstehen, worüber sprechen überhaupt.
Tom: Das heißt, es wird ein Transkript gebaut, dafür nutzen wir dann zum Beispiel
Tom: OpenAI und transkribiert einmal den gesamten Podcast.
Tom: Dann kommt das nächste Modell, guckt sich den Podcast an und das Transkript
Tom: an und entscheidet dann, okay, wo wird über das Thema kritische Fragen,
Tom: also muss erstmal überhaupt eine Einschätzung treffen, was sind kritische Fragen,
Tom: wo kommt der Tom vielleicht ins Straucheln und entscheidet dann praktisch daraufhin
Tom: aufgrund dieses Transkript, das sind die Teile.
Tom: Um dann praktisch Marker zu
Tom: setzen. Dann kommt der Nächste und setzt Cuts und fängt an zu schneiden.
Tom: Dann hast du vielleicht im Prompt auch noch gesagt, das soll 30 Sekunden lang sein.
Tom: Jetzt redet jemand 45 Sekunden zu einer kritischen Frage. Jetzt versteht aber
Tom: unser Agent und sagt, okay, ich muss 45 Sekunden ausgehen, weil ich möchte den
Tom: ja nicht abrupt einfach abschneiden, wenn ich jetzt mitten gerade im Satz bin.
Tom: Das heißt, auch da ist die Intelligenz so weit, dass der nicht einfach stumpf
Tom: dem Prompt folgt, sondern selber anfängt zu entscheiden, wann gehe ich ein bisschen drüber.
Tom: Genau wie dein Werkstudent, wenn du ihm sagst, machen wir 30 Sekunden Clips
Tom: und der guckt sich ein Video an und stellt fest, kann ich nicht machen,
Tom: weil da ist jemand im Satz gerade, dann gibt er dir auch 45 Sekunden Clips aus
Tom: und sagt Stella, sorry, aber der ist halt im Satz.
Tom: Also deswegen ist dieser Vergleich Werkstudent und KI-Agent eigentlich sehr
Tom: gut. Die sind ungefähr tatsächlich technisch und auch vom Qualitätsoutput auf dem gleichen Level.
Tom: Also du musst natürlich nachher nochmal drüber gucken. Es kann auch mal sein,
Tom: dass da, wir hatten den Fall gerade neulich, bei unserem zweiten Agenten,
Tom: das ist der Theo, der macht aus Texten Videos.
Tom: Das war ein Kunde von uns, der hatte die Trendfarbe Mocker in einem Blog beschrieben.
Tom: Das ist ein großer so Obi-Bauhaus, aus der Richtung kommen die.
Tom: Und wollte aus diesem Blog ein Video machen. Und dann ist der Theo rübergegangen,
Tom: hat den Blog analysiert und hat dann praktisch Videos erstellt.
Tom: Und er greift auf eine Stock-Library zu, also sind 20 Millionen Videos drin,
Tom: baut dann da praktisch aus diesem Text, findet dann in praktisch Videos,
Tom: die dazu passen und schneidet es dann automatisiert zusammen.
Tom: So, jetzt kam aber die Trendfarbe Mocker. Das heißt, die erste Einspieler war
Tom: eine afroamerikanische Frau, die auf einem Stuhl sitzt. Und dann wurde über
Tom: die Trendfarbe Mocker gesprochen.
Tom: Sehr kritisch. Da muss ein Mensch eingreifen und dann nochmal austauschen.
Tom: Weil der KI-Agent in dem Moment, aufgrund des Trainings, und da sind wir natürlich
Tom: auch bei so interessanten, auch ethischen Themen, wie zum Beispiel Data Bias.
Tom: Warum entscheiden KI-Agenten überhaupt? Warum treffen sie eine Entscheidung?
Tom: Es liegt einfach am Ende des Tages dahin, wie wurden diese großen LLMs trainiert?
Tom: Viel davon ist krass rassistisch, hat extrem viele Themen, wo wir heutzutage
Tom: sagen, schwierig. durch, haben wir eigentlich schon lange hinter uns gelassen.
Tom: Aber das sind die Trainingsdaten, die in LLMs reingeflossen sind.
Tom: Das heißt, diese LLMs treffen manchmal auch Entscheidungen.
Tom: Die nicht konform sind mit der Art und Weise, wie wir heutzutage arbeiten.
Stella: Wie das Beispiel, was du genannt hast, was ja auch rassistisch ist.
Tom: Absolut, genau. Und da muss dann halt, deswegen nennen wir das Human in the Loop,
Tom: du kriegst ein Video und kannst dann halt sagen, okay, ich möchte das erste
Tom: Visual nochmal austauschen oder ich möchte den Prompt nochmal schreiben,
Tom: um halt auch sicherzustellen, gerade für große Unternehmen und große Marken,
Tom: da muss ja jemand immer nochmal drüber gucken.
Tom: Das ist ein extrem wichtiger Sicherheitsaspekt. Wir sind nicht diejenigen,
Tom: die sagen, hey, ihr kriegt hier einen KI-Assistent, man kriegt hier ein fertiges
Tom: Material und es wird dann automatisch gepostet.
Tom: Weil dieses Human-in-the-Loop-System ist für uns und auch für unsere Kunden
Tom: und einfach für den Markt extrem wichtig, weil sonst kommst du halt an Punkte,
Tom: wo nachher die Frage gestellt wird, warum hat eine KI eine Entscheidung getroffen,
Tom: kann keiner nachvollziehen.
Tom: Wir haben das jetzt irgendwie alle einfach publiziert. Da wollen wir nicht hinkommen.
Stella: Du hast wieder Punkte angesprochen, aber meine Frage, die hast du mir noch nicht beantwortet.
Stella: Nämlich, wie funktioniert denn das Thema Rechenleistung? Du hast gesagt,
Stella: es ist lautbasiert, sprich, ihr müsst ja als Co-Fenster diese Rechenleistung
Stella: in Form von Servern eigentlich zur Verfügung stellen.
Tom: Genau, das tun wir. Also wir hosten alles bei uns bei AWS, bei Amazon,
Tom: auch in Frankfurt und das ist auch DSGVO und ISO zertifiziert.
Tom: Aber wie das konkret funktioniert technisch ist, wir haben verschiedene AWS
Tom: Buckets und wenn jetzt so ein Job praktisch eingegeben wird und sagt,
Tom: aus diesem Video einen kleinen Snippet, dann wird praktisch ein Bucket kreiert in AWS,
Tom: die Rechenleistung wird hochgefahren, dann wird die aber auch wieder runtergefahren,
Tom: wenn das praktisch an das nächste LLM weitergegeben wird, dann wird es wieder
Tom: hochgefahren und wieder runtergefahren.
Tom: Das heißt, wir haben ein dynamisches System gebaut Und deswegen können wir auch
Tom: vom Business-Modell her, müssen wir es nicht nach Credits preisen,
Tom: weil wir eine sehr effiziente Art und Weise im Compression gefunden haben,
Tom: wie du eben selbst mit Dateien wie Video, die ja wirklich immer hunderte Megabyte,
Tom: Gigabyte, Terabyte teilweise im Bereich sind, sehr effiziente Software anbieten
Tom: können, ohne jetzt dieses nervige Preismodell unserer Kunden weiterzugeben,
Tom: wo du sagst, du musst jetzt hier wieder Credits kaufen nach 3-mal Nutzung.
Tom: Weil das finde ich auch aus Kundensicht nicht unbedingt zeitgemäß,
Tom: wenn man es technisch lösen kann.
Tom: Aber da haben unsere Ingenieure Wunderwerk geleistet, weil vor nach zwei Jahren war es nicht so.
Tom: Da haben wir durchgehend gerendert und da hattest du halt Terabyte an Daten.
Tom: Das ist natürlich sehr teuer für ein Unternehmen und dann mussten wir das natürlich
Tom: weitergeben, aber davon sind wir weggekommen.
Tom: Deswegen auch, wir haben einen sehr guten DevOps-Lead, den Thiago,
Tom: wollen wir an dieser Stelle mal loben hier. Die machen echt ein super Arbeit, das Team.
Stella: Wie groß ist eigentlich euer Team insgesamt?
Tom: Wir sind insgesamt 25 Menschen.
Stella: Und wie viele sind da für den Bereich Software zuständig? Der Großteil.
Tom: Der Großteil.
Stella: Aber eine genaue Zahl nennst du mir nicht.
Tom: Ungefähr, wir haben so zwei Drittel, ein Drittel.
Stella: Kommen wir einmal zurück zum Thema, du hast jetzt einmal gesagt,
Stella: ihr hostet in Frankfurt, das heißt, ihr garantiert euren Kunden auch,
Stella: dass die Daten in Deutschland und in Europa bleiben.
Tom: Das garantieren wir und wir garantieren, dass ihre Daten nicht zu Trainingszwecken
Tom: der amerikanischen LLMs benutzt werden.
Tom: Und das ist auch ein riesiges Differenzierungsmerkmal, weil wenn jetzt,
Tom: ich bleibe mal bei dem Beispiel Volkswagen, aber Volkswagen ist kein Kunde von
Tom: uns, aber ich bleibe einfach mal beim Beispiel, was ein guter Brandname ist.
Tom: Volkswagen hat jetzt hier die Stimme von seinem und ihrer CEO in einem Video.
Tom: Das wird jetzt in so einem LLM gegeben.
Tom: Wer garantiert dir als Volkswagen, dass die Stimme von der CEO nicht genutzt
Tom: wird zu Trainingszwecken, um vielleicht auch synthetische Stimmen zu bauen?
Stella: Großes Risiko.
Tom: Riesenrisiko. Warum nutzt ein Volkswagen hoffentlich zukünftig Co-Fenster und
Tom: nicht ein CapCut oder x andere Competitor?
Tom: CapCut ist China und ByteDance. Da kannst du viele Sachen reinfüttern.
Tom: Die trainieren ihre Modelle auf all dem, was du reinfüttest.
Tom: Für den deutschen Corporate No-Go.
Tom: Und das gleiche ist auch bei den amerikanischen Modellen, da kannst du auch
Tom: über Veo und ChatGPT und sonst was sprechen.
Tom: Wenn du keinen Datenverarbeitungsvertrag mit dem Provider abschließt und praktisch
Tom: eine Sandbox baust, trainieren die alles, was du da reinschreist.
Tom: Also ich finde sowieso, die Chat-GPT-Nutzung heutzutage ist massiv kritisch.
Tom: Also wir füttern da alle möglichen Daten rein, auch private Daten.
Tom: Und Sam Altman trainiert dabei seine KI-Modelle und hat keinerlei Anspruch auch,
Tom: jemals sich um das Thema zu können, weil das auch eher ein Business-Modell wird.
Tom: Also es ist so ein bisschen wie die Early Days von Google und dem Internet,
Tom: als das Thema noch ein bisschen wilder war, als es heutzutage ist. Nur auf Steroiden.
Tom: Also die Diskussion, die wir über Cookies hatten für Jahre hier in Deutschland,
Tom: ist ein Furz, auf gut Deutsch gesagt, gegen das, was hier gerade passiert.
Stella: Und da seht ihr ja auch bei AWS das Ganze hostet, einem US-Unternehmen,
Stella: die rein theoretisch natürlich auch die Daten in den USA abfließen lassen können.
Stella: Wie garantiert ihr denn in der Zusammenarbeit eben, dass das nicht passiert?
Tom: Weil wir Verträge geschlossen haben, also die heißen Auftragsverarbeitungsverträge,
Tom: wo eben geregelt wird, was mit den Daten passiert und wie die genutzt werden.
Tom: Da ist halt geregelt, dass die Daten in Deutschland bleiben und auch nicht zu
Tom: Trainingszwecken geregelt werden. Ja.
Stella: Ein Punkt noch, den du angesprochen hast. Also ich kann mir schwer vorstellen,
Stella: dass die Marketingabteilungen gerade in großen Konzernen mit Capcut arbeiten.
Stella: Gerade jetzt nicht mehr, nachdem natürlich auch die AGBs geändert worden sind,
Stella: sondern eher vielleicht Konkurrenz ist, sofern im Unternehmen geschnitten wird
Stella: und nicht extern mit einer Agentur.
Stella: Da Vinci, Adobe Premiere, das sind doch eigentlich auch Konkurrenten für euch, oder?
Tom: Also CapCut wird großflächig eingesetzt in deutschen Konzernen,
Tom: aber es läuft unter Shadow IT.
Tom: Da müssen wir auch mal ganz ehrlich miteinander sein. Die tauchen auf keiner
Tom: P&L auf, gibt es auch keine Kostzentrum für, aber viele Unternehmen und auch
Tom: Mitarbeitende laden sich das auf ihr Privathandy runter und schneiden da.
Tom: Das ist aktuell der Security-Standard. Deswegen kriegen auch,
Tom: wenn wir mit Kunden sprechen und ich mit deren Chief Security Officer spreche,
Tom: freuen die sich und laufen uns die Bude ein, weil sie sagen,
Tom: okay, jetzt haben wir wirklich einen Weg gefunden auch, hier so ein bisschen
Tom: dieser Shadow IT Einhalt zu gebären.
Tom: Aber du hast einen richtigen Punkt angesprochen. Natürlich, es gibt DaVinci Resolve, Adobe etc.
Tom: Da gibt es ja auch sehr, sehr gute Produkte auf dem Markt. Das Problem dabei
Tom: ist, ich muss selber schneiden. Ich muss selber Musik lizenzieren.
Tom: Ich muss selber mit meiner Brand umgehen können.
Tom: Nehmen wir mal Beiersdorf, Lieblingskonzern aus Hamburg. Die haben eine Brand
Tom: Guideline, die ist 30 Seiten stark, weil mir Ikea als FMCG-Marke einfach wirklich stark ist.
Tom: Jetzt gehen Mitarbeiter hin und sagen, welches Logo verwende ich denn eigentlich
Tom: für eine Social? Wir haben 17 verschiedene Logos für 17 verschiedene Untermarken
Tom: in 17 verschiedenen Formaten.
Tom: Ich als HR-Manager, der einfach ein Employer-Branding-Video machen möchte,
Tom: keine Ahnung, wie lizen sie sich Musik mit der GEMA, dass nachher Beiersdorf
Tom: die Rechte daran hat, das zu verwenden?
Tom: No chance. Also klar, technisch kannst du es damit machen, aber Nummer eins,
Tom: du musst es manuell machen, das dauert. Und Nummer zwei, du musst dich damit auskennen.
Tom: Und wir sagen immer, du bist HR-Manager und
Tom: kein Videograf. Oder du bist Marketing-Managerin und keine Videografin.
Tom: Also die arbeiten zwar mit Kommunikation, das heißt ja nicht,
Tom: dass sie eine Schnittausbildung haben.
Tom: Deswegen wird auch die Software sehr gut genutzt, weil die Menschen sich darüber
Tom: freuen, dass praktisch mal jemand einen Layer dazwischen gebaut hat und gesagt,
Tom: wir garantieren euch Brand Safety, wir garantieren euch Datensicherheit und
Tom: es ist super einfach zu nutzen.
Stella: Das, was wir gerade viel besprechen, also auch Adobe etc., adressiert ja alles Milo.
Stella: Also im Endeffekt, wenn ich jetzt mit Adobe oder einem anderen Produkt etwas
Stella: schneide, habe ich ein bestehendes Video und muss das eben cutten.
Stella: Du hattest vorhin angesprochen, bei Milo ist es so, ich gebe mein Material rein, gebe einen Prompt dazu.
Stella: Aber wir sind noch nicht weitergekommen, was dann passiert. Ist es denn so,
Stella: du hast zwar den Weg erläutert, natürlich wie die einzelnen Schritte passieren,
Stella: sitze ich denn dann beispielsweise vor meinem Laptop, sehe das in Echtzeit,
Stella: in Sekunden, wie da quasi der Code dann vielleicht auch rattert und kann ja
Stella: dann auch nichts anderes machen, weil vielleicht mein Laptop auch mit der Cloud-Leistung
Stella: dermaßen überfrachtet ist, dass nichts anderes geht.
Stella: Fände ich, wäre keine unbedingte Arbeitszeitersparnis.
Stella: Also wie funktioniert denn das Zusammenspiel jetzt erstmal ganz konkret mit
Stella: Milo? Kriege ich da nochmal ein Feedback?
Stella: Du hattest angesprochen, hey, ich wollte 30 Sekunden, sind es 45.
Stella: Kriege ich dann einfach 45 Sekunden ausgespuckt oder 30 mit einem Hinweis?
Tom: Also du gibst das Video da rein, schreibst dann einen Prompt und sagst,
Tom: brauche mir daraus 10 Social Media Clips, 30 Sekunden.
Tom: Dann musst du ungefähr so eine Minute warten, während Milo arbeitet.
Tom: Dann gibt dir Milo praktisch deine zehn Videos aus. Kannst du dir anschauen.
Tom: Hat er schon Untertitel drauf gebaut? Hat deine Corporate Brand schon drauf
Tom: gebaut? Hat Musik draufgelegt? Und stellt dir die praktisch fertig zur Verfügung.
Tom: Dann kannst du dir die angucken.
Tom: Und dann hast du die Option, entweder exportiere ich das, weil du happy bist. Oder du sagst Edit.
Tom: Und dann kannst du auch manuell nochmal sagen, ich möchte die Musik ändern.
Tom: Oder mein letzter Name, Tom Vollmer, der hat das mit einem L geschrieben.
Tom: Ich muss in den Untertitel nochmal ganz kurz rein, das L ändern.
Stella: Ein häufiges Problem, weil gerade Transkriptionen auch immer noch herausfordernd
Stella: sein können. Das kenne ich aus dem eigentlichen Daily Doing.
Tom: Ich möchte mich nicht zu weit aus dem Fenster hängen, aber das Transkriptionsthema,
Tom: wir waren letztes Jahr bei so 92 Prozent.
Tom: Wir sind jetzt bei 99,9.
Tom: Selbst Eigennamen, selbst wenn Menschen auf Schweizerdeutsch sprechen,
Tom: erkennt der Hochdeutsch.
Tom: Französische Dialekte aus Bordeaux versus Paris erkennt der und bringt das ins Hochfranzösische.
Tom: Es ist wahnsinnig, wie gut die Technologie geworden ist.
Stella: Das heißt, jetzt um zurückzukommen zu der Anwendung, das bedeutet,
Stella: ich kriege dann die Videos ausgespuckt, kann sie noch einmal editieren und kann
Stella: sie dann beispielsweise veröffentlichen.
Stella: Das mache ich aber manuell, da habe ich jetzt keinen Agenten für.
Tom: Für die Edits, die du machen möchtest, die machst du manuell.
Tom: Du kannst aber natürlich, wenn dir alles nicht gefällt, kannst du nochmal komplett reprompten.
Tom: Also das ist auch immer eine Option, genauso wie du es von ChatGPT kennst.
Stella: Was ist denn mit Ella? Über die haben wir noch gar nicht gesprochen.
Stella: Jetzt fahre ich schon an, hier plötzlich dann auch zu sagen,
Stella: dir, jetzt wäre es eine Person, so schnell geht das mit den menschlichen Namen.
Stella: Da habt ihr euch was überlegt beim Marketing.
Stella: Bei der Software ist es ja so, dass Konzepte damit erstellt werden.
Stella: Jetzt kenne ich konzeptionelle Arbeit mit viel Austausch.
Stella: Brainstorming, ich gebe eine Idee rein, ich kriege wieder Input vielleicht von
Stella: einem Kollegen, einer Kollegin dazu. Wie funktioniert das bei Ella?
Tom: Also ich gebe dir mal ein Beispiel aus der Unternehmenskommunikation und aus dem HR.
Tom: Nehmen wir mal an, aus dem HR, ich möchte, ich habe eine Stellenanzeige und
Tom: ich möchte eigentlich vielleicht lieber die Stellenanzeige als Video produzieren
Tom: und möchte meine Azubis, die ich jetzt gerade habe, vor die Kamera bringen und
Tom: erzählen, warum sind sie Azubis hier, warum gefällt es ihnen Unternehmen und so weiter und so fort.
Tom: Dann gehe ich zu Ella und sage, hey Ella, ich möchte ein Azubi-Video machen.
Tom: Schlag mir doch mal bitte drei Fragen vor für meine Azubis.
Tom: Dann überlegt sich Ella drei Fragen für deine Azubis. Guckt dann auch Social
Tom: Media technisch gerade was Trendet.
Tom: Zum Beispiel gibt es irgendwelche TikTok-Trends, auf die man aufspringen kann,
Tom: weil Azubis finde ich auf TikTok und nicht auf Meta.
Tom: Und gibt dir dann ein Storyboard vor und sagt, hier, das sind deine drei Fragen.
Tom: Und hier sind ein paar Talking Points auch für den Azubi.
Tom: Dann guckst du das an und sagst, das ist gut. Oder du editest die Frage und
Tom: sagst, möchte ich nicht, möchte vier Fragen haben oder wie auch immer.
Tom: Dann wird ein Link generiert und dieser Link geht automatisch auf das Smartphone
Tom: vom Azubi, wird dem geschickt.
Tom: Ganz normaler Link, ist cloudbasiert, er drückt da drauf und dann bekommt er
Tom: eine Maske, wo er sich praktisch selber aufnehmen kann oder wo er seine Recording
Tom: Instructions drin hat und auch seine Frage.
Tom: Und dann steht da vielleicht drin,
Tom: film dich für unsere Hauptfiliale als Handwerksunternehmen, keine Ahnung.
Tom: Dann stellt er sich für die Hauptfiliale, spricht in die Kamera und sagt,
Tom: hey, ich bin der Tom, ich bin hier Azubi im zweiten Lehrjahr.
Tom: Ich bin gerne Klempner geworden aus Grund ABC.
Tom: Die Talking Points sieht er auch auf seinem Screen macht dieses Video,
Tom: macht dann den zweiten Shot, den dritten Shot,
Tom: Lied das hoch und dann kriegst du als Stella, 1, 2, 3 Minuten später eine E-Mail
Tom: und sagst, hey Stella, dein Video ist fertig.
Tom: Und dann fängt der gleiche Flow wieder an. Dann hat Ella das zusammengeschnitten,
Tom: Musik draufgelegt, Untertitel draufgelegt, Corporate Branding und du kannst
Tom: es wieder anschauen und dann nochmal ein paar Edits machen, wenn du möchtest.
Tom: Und das ist natürlich auch wahnsinnig stark in der internen Kommunikation.
Tom: Ich komme gerade von kontinentalen Kunden von uns auch hier in Hannover.
Tom: Die haben halt ihre Production Plans in Rumänien, in Thailand etc.
Tom: Und für deren interne Kommunikation, die wirklich Cross-Border kommunizieren
Tom: müssen, ist es extrem wichtig, auch die Stimmen aus anderen Ländern zu hören.
Tom: Das heißt, die bauen Storyboards, so lassen sich die bauen, schicken den Link
Tom: rum, Menschen antworten.
Tom: Und schon habe ich ein Video, was ich in der internen Kommunikation posten kann,
Tom: um den Standort in Rumänien zu promoten zum Beispiel.
Stella: Das heißt aber auch, dass Ella dafür geeignet sein muss, natürlich erst strategisch
Stella: zu kommunizieren oder zumindest Anforderungen dazu umzusetzen.
Stella: Und was, glaube ich, auch wichtig ist, ein Konzept bedeutet ja nicht nur,
Stella: dass ich beispielsweise Sprechertexte festlege oder einen Text schreibe,
Stella: der dann die Basis für ein Video ist, sondern ein Konzept bedeutet ja auch Location,
Stella: Feinheiten, wie ist das Bild aufgebaut.
Stella: Das kann alles dadurch abgebildet werden.
Tom: Zu einem Teil, also wir geben Recommendations, was man vor der Kamera wie sagen soll.
Tom: Wir geben noch keine Kampagnen-Recommendation. Das ist jetzt nicht,
Tom: wenn ich jetzt im Employer Branding bleibe, überlege mir, ich möchte jetzt irgendwie
Tom: Azubis gewinnen, wie mache ich das am besten?
Tom: Okay, ich brauche eine Azubi-Kampagne unter dem Stichwort Team Yellow,
Tom: weil ich bei der Commerzbank bin. Die machen übrigens auch einen hervorragenden Job.
Tom: Employer Branding, Commerzbank, kann man sich mal anschauen.
Tom: Die haben aber Team Yellow, das ist der Kampagnen-Slogan. Der wurde natürlich
Tom: in-house mit einer Agentur entwickelt und das ist praktisch das Herzstück davon.
Tom: So ein Teil dieser Kampagne ist dann eben auch, wir wollen Mitarbeitende vor
Tom: die Kamera bringen und eben dieses Team Yellow zu promoten.
Tom: Und da kommt dann, da startet dann eigentlich erst der Ella Flo.
Stella: Was ihr auch, ich glaube unter anderem auf der Website versprochen habt,
Stella: geht jetzt nicht ganz in die Richtung Kampagne, aber ihr sagt,
Stella: das Ganze kann auch Emotionen erkennen.
Stella: Was ich sehr spannend finde, weil das für künstliche Intelligenz immer noch
Stella: eine Herausforderung ist.
Stella: Beispiel ist zum Beispiel Lachen. Ich kann lachen, weil ich glücklich bin.
Stella: Ich kann aber auch lachen, weil ich verzweifelt bin oder sogar,
Stella: weil ich traurig bin. Das ist eine Emotion, die auf den ersten Blick sehr leicht
Stella: zuzuordnen ist, aber für künstliche Intelligenz sehr viele Nuancen hat.
Stella: Wie erkennt denn eure KI über die Tools hinweg Emotionen und kann sie umsetzen?
Tom: Weil wir immer noch einen Text dazu haben und weil wir immer noch Kontext haben.
Tom: Wenn du jetzt ein Video reinpostest, einfach in MiloElla wie noch immer,
Tom: wo einfach nur eine Person ohne zu sprechen, lacht, weint, alle Emotionen einmal
Tom: pflügt, wäre sehr schwierig für die KI zu cutten.
Tom: Den Vorteil, den wir haben, im Unternehmenskontext passiert das nie,
Tom: sondern die Menschen reden über ein Thema und fangen dann an zu lachen.
Tom: Das heißt, du hast Kontext, du hast auch schriftlichen und transkribierbaren
Tom: Kontext und daran erkennt dann eigentlich die KI, zusammen mit der Bilderkennung,
Tom: ob dieses Lachen jetzt vor Freude ist oder...
Stella: Aus anderen Gründen.
Tom: Aus anderen Gründen, genau. Also wir haben den Kontext und das ist sehr,
Tom: sehr wichtig. Und nur so funktioniert das auch.
Stella: Und was mir auch noch aufgefallen ist, ich glaube es war eure Website,
Stella: wenn ich es recht im Kopf habe.
Stella: Ihr sagt auch, wir erzeugen virale Videos. Das war jetzt faraphrasiert.
Stella: Ihr versprecht Viralität auch mit den Videos, wobei das weniger auf Ella bezogen,
Stella: als denn auf Milo bezogen ist.
Tom: Du bist schon sehr gut in den Produkten drin.
Stella: Das ist die Recherche, dafür ist sie da. Wie wollt ihr denn Viralität versprechen,
Stella: was ja generell ein sehr umstrittenes Konzept ist?
Tom: Also wir kommen aus Hamburg und bei uns sagt man relativ oft,
Tom: aus einem Schweinetrog kannst du keine Violine schnitzen.
Tom: Also ich kann keine Viralität versprechen, wenn du jetzt irgendwie ein Compliance-Video
Tom: reinpackst in Milo, dass Todes langweilig ist und irgendwie eine Stunde dauert
Tom: und sagst, mach mir daraus bitte virale Shorts.
Tom: Das Bullshit funktioniert nicht, wird auch niemals passieren,
Tom: weil es ist langweilig. Punkt.
Tom: Was wir tun, ist, wir nehmen den Content und wir nehmen jetzt ein Video,
Tom: wo unser CEO zum Beispiel oder unsere CEO vielleicht eine Keynote hält und gucken dann,
Tom: machen eine semantische Analyse und gucken gerade, was passiert eigentlich auf
Tom: LinkedIn, was passiert auf Meta, was passiert auf TikTok, welche Topics trennen gerade.
Tom: Vielleicht gibt es ein Thema, was gerade Trende zum Thema Frauen in Führungspositionen,
Tom: Career Development und innerhalb dieser Stunde von dieser Keynote spricht die
Tom: CEO vielleicht über ihre Rolle als Führungskraft und wie sie durch den Konzern
Tom: sich hochgearbeitet hat und das ist vielleicht ein Teil dieser Keynote.
Tom: Das heißt, unser Assistent gleicht ab, was passiert eigentlich in Social Media
Tom: und gibt es Themenfelder innerhalb dieser Keynote, die auf einen Trend passen
Tom: und schlägt dir dann praktisch einen Viralitätsindex vor und sagt,
Tom: dieses Video ist wahrscheinlich, dieser Cutdown ist wahrscheinlich am besten
Tom: aus all den 10, die ich hier produziert habe.
Tom: Also es ist eine Einordnung, welcher könnte am besten organisch funktionieren.
Tom: Wir nennen es Viralität, weil Viralität ein schönes Wort ist.
Tom: Versprechen wir Unternehmen, dass ihre Posts jetzt auf einmal viral gehen. Das können wir nicht.
Stella: Sonst wäre jetzt auch die nächste Frage, was für Realität überhaupt ist,
Stella: was im Marketing auch wieder diskutiert wird. Wo fängt denn aus deiner Sicht Viralität an?
Tom: Naja, Viralität hat ja einen sehr technischen Hintergrund, also exponentielles Wachstum.
Tom: Auch wenn wir in der Businesswelt ja auf Deutsch sprechen, alle über Skalierbarkeit.
Tom: Das sind ähnliche Konzepte, die ich beide für ein bisschen Bullshit halte in vielen Kontexten.
Tom: Weil es ist Quatsch jetzt zu sagen, ich mache aus dem Content viralen Content
Tom: und ich kann dir das versprechen,
Tom: weil meine persönliche Meinung dazu ist, Viralität, wenn sich jetzt Sachen viral
Tom: auf Social Media verbreiten, wie zum Beispiel jetzt gerade dieses Tanz-Indonesische-Boot-Video,
Tom: ich weiß nicht, ob du das gesehen hast, steht ein Kind vorne,
Tom: alle paddeln und der tanzt. Es geht gerade viral auf TikTok.
Tom: Wie ist das viral gegangen? Das weiß kein Mensch.
Stella: Es ist nicht erklärbar.
Tom: Also deswegen, ich bin auf dem Viralitätsthema, glaube ich, eher ein bisschen alte Schule.
Tom: Ich glaube nicht, dass das irgendjemand versprechen kann oder dass es dieses
Tom: Konzept tatsächlich, dass du es beeinflussen kannst, weil dafür ist Social Media
Tom: und vor allem die Algorithmen, müsstest du all die Algorithmen von einem Meta
Tom: oder einem TikTok verstehen.
Tom: Das kann keiner außer die Firma und selbst die wahrscheinlich nicht.
Stella: Trotzdem habt ihr es auf der Website stehen.
Tom: Weil es ein sehr gutes Wort ist, was sofort veranschaulicht,
Tom: in welche Richtung es geht.
Tom: Also man kann es natürlich auch auf einer Website schreiben,
Tom: wir machen eine semantische Analyse und schlagen dir die besten Vorschläge daraus vor.
Tom: Nur es ist etwas kompliziert in der Sprache. Aber auch, wenn bei uns Kunden
Tom: oder Prospects durch den Sales-Prozess gehen, erklären wir natürlich,
Tom: was versprechen wir, was ist damit gemeint etc.
Stella: Was ich dabei auch noch ganz spannend finde, du hast ja gerade gesagt,
Stella: Laufentrends erkennen.
Stella: Wie du gerade dieses Beispiel genannt hast. Ich habe wahrscheinlich auch in
Stella: letzter Zeit zig Videos gesehen, wo ich sage, oh, die häufen sich,
Stella: da kann man einen Trend auserkennen.
Stella: Wie sorgt ihr aber denn dafür, dass eure verschiedenen KI-Assistenten genau
Stella: das leisten? Also es ist ja beispielsweise so, dass auch JetGPT,
Stella: du hast gesagt, auch bei OpenAI habt ihr entsprechend eben Schnittstellen.
Stella: Wie sorgt ihr denn dafür, dass es immer aktuelle Daten sind und beispielsweise
Stella: nicht ein Trend genommen wird, der vielleicht vor vier Wochen aktuell war,
Stella: jetzt ein alter Schuh ist, aber halt noch hinterlegt ist, weil es noch keinen neuen Load quasi gibt?
Tom: Also die semantische Analyse passiert täglich, um halt up to date zu bleiben auf den Themen.
Tom: Dadurch kannst du halt zumindestens somewhat sicherstellen, dass du ungefähr
Tom: im richtigen Zeitraster bist.
Tom: Auf der Unternehmensseite ist das dann aber teilweise auch so,
Tom: dass gerade die Unternehmenskommunikation, die sind ja noch etwas konservativer.
Tom: Nur weil irgendwas auf TikTok jetzt gerade trendet, heißt ja noch nicht,
Tom: dass das sofort umgesetzt wird.
Tom: Deswegen ist es, glaube ich, vom Format her sehr wichtig, darauf zu gucken.
Tom: Also du siehst zum Beispiel Milo schneidet sehr schnell. Du hast Untertitel, die animiert sind.
Tom: Das sind alles Trendthemen, die gerade auf TikTok, das muss man ganz klar sagen,
Tom: die sind getrieben von TikTok.
Tom: Und das ist beeinflusst das Konsumverhalten. Wir können nicht mehr ewig lange
Tom: Sätze schauen, sondern wir sind daran gewöhnt, schneller Schnitt,
Tom: große Untertitel, die ein bisschen flashy sind.
Tom: Und diese, sagen wir mal, Trend-Elemente
Tom: auch vom Stilistischen her in der Postproduktion, die geben wir halt mit.
Tom: Aber die ändern sich auch eher, würde ich sagen, im halben Jahr als jetzt jeden Tag.
Tom: Weil dann fängt wieder ein neuer Editor an, der geht dann irgendwie auf TikTok
Tom: viral, der macht dann irgendwie neun wieder Edits. Und dann braucht das ja auch
Tom: ewig, bis das irgendwie wieder in der Masse angekommen ist.
Tom: Also wir geben eigentlich nur, was möchte die Unternehmenskommunikation jetzt
Tom: in diesem Beispiel damit sicherstellen? weil die wollen ja eigentlich nur,
Tom: dass die Leute jetzt gucken.
Tom: Das heißt, wir müssen den Content ja irgendwie ein bisschen aufarbeiten,
Tom: dass es halt nicht langweilig ist, sondern gut geschnitten ist,
Tom: gute Musik drauf ist, die Onbeat ist.
Tom: Und das ist das, was wir damit versuchen zu erreichen und Unterstützung liefern.
Stella: Was ich dabei auch noch ganz spannend finde, ist, wie ihr eigentlich in der
Stella: Basis die ganzen Sachen trainiert habt, mit denen ihr arbeitet.
Stella: Welche Daten habt ihr da eingepflegt? Du hast verschiedene Modelle genannt, Antrofic, OpenAI.
Stella: Wie habt ihr das alles in verschiedene Produkte zusammengepasst? Fakt.
Tom: Also die haben ja alle Schnittstellen, also APIs, an die du praktisch dich andocken kannst.
Tom: Und dann, da kommt eigentlich erst tatsächlich die Magie rein,
Tom: ist ein bisschen die Frage, wie nutzt du so eine Schnittstelle?
Tom: Wenn wir jetzt mal irgendwie bei Open Air gehen, dann hast du halt ein ganzes
Tom: Team, was sich eigentlich bei uns nur mit Prompting auseinandersetzt.
Tom: Also wie promptest du eigentlich diese API und wie promptest du eigentlich im
Tom: Hintergrund auf einer Systemebene so ein LLM, dass du für den Use Case,
Tom: den du hast, ich möchte ein Video erstellen, gute Ergebnisse rausbekommst.
Tom: Das heißt, du hast unsere Render Engine, dann hast du Prompts und dann kommt das LLM.
Tom: Und diese Render Engine haben wir komplett selbst gebaut, das ist unsere eigene
Tom: und die Prompts haben wir auch einfach, weil wir jetzt fünf Jahre am Markt sind
Tom: und auch schon mehrere Millionen Videos erstellt haben für Kunden.
Tom: Da kriegst du halt irgendwann schon gewisses einfach internes Wissen,
Tom: wie du so ein System gut einstellst.
Tom: Und kommen wir wahrscheinlich später nochmal dazu, aber ich will ein bisschen
Tom: vorgreifen auf dem Thema, kommt
Tom: nicht irgendwie ein Google und macht dir irgendwie das Geschäft kaputt.
Tom: Oder kommt ein OpenAI, warum bauen die das denn nicht selber?
Tom: Und auch da auf der Ebene ist, du musst ganz klar den Kunden Use Case verstehen
Tom: und dann musst du auch die Brand verstehen und wie die Brand interagiert und
Tom: dann musst du das alles in so ein LM füttern.
Tom: Diese ganze Information hier
Tom: vorne hat Google nicht und ist auch nicht deren Anspruch das zu bauen.
Tom: Ich meine, die haben vor ein paar Jahren Clipchamp gekauft, das ist ein Video Editor.
Tom: Warum haben sie das nicht selber gebaut? Also diese Unternehmen sind sehr gut
Tom: darin, ihren Core-Produkten weiterzuentwickeln und dann im nächsten Schritt
Tom: kaufen die dazu, wenn das irgendwie gerade bei ihnen reinpasst.
Stella: Aber was du angesprochen hast, wie trainiert ihr denn ganz konkret nochmal eure
Stella: Systeme? Klar, ihr nutzt die Schnittstellen, aber ihr habt ja auch eigenprogrammiert.
Stella: Nutzt ihr dann da quasi die Kundendaten, zieht daraus Schlüsse, was funktioniert?
Tom: Also du kannst diese Systeme nicht trainieren. Du kannst nur Systeme trainieren,
Tom: die du selber gebaut hast.
Tom: Das heißt, nur wenn du selber ein LLM baust, kannst du es auch trainieren.
Tom: Das Einzige, was wir machen können, ist prompten und praktisch einstellen.
Tom: Das ist einfach technisch gesehen ein Unterschied. Das heißt,
Tom: wir trainieren diese Modelle nicht, weil ich kann kein LLM von OpenAI trainieren,
Tom: sondern ich gehe einfach nur hin und sage, okay, ich habe praktisch Systemeinstellungen,
Tom: die ich verfeiner, anpasse, je nachdem, wie sich auch das Modell entwickelt,
Tom: um dann immer den besten Output für unseren Kunden zu erzielen.
Tom: Das ist tatsächlich die IP, was wir selber tun.
Tom: Und das ist am Ende des Tages, hört sich ziemlich einfach an.
Tom: Es ist aber einfach viel probieren, weil die LLMs entwickeln sich auch weiter.
Tom: Wir haben halt Prompt-Ingenieurs, die sich nur damit auseinandersetzen,
Tom: wie prompte ich jetzt ein Modell am besten.
Stella: Wie verhindert ihr denn aber auch, dass zum Beispiel das, was bei Milo rauskommt,
Stella: total generisch sein könnte?
Stella: Weil Milo vielleicht erkennt, okay, weiß ich nicht, dieses Zitat funktioniert generell gut.
Stella: Es gibt ja auch bestimmte Floskeln, die im Unternehmenskontext bei der internen
Stella: Kommunikation immer wieder genutzt werden.
Stella: Und dann hat man natürlich von jedem Unternehmen etwas Persönliches,
Stella: aber etwas, was sich immer wiederholt. Ist ja auch nicht so in der Übung.
Tom: Dadurch, dass der Content, der in Milo reingefüttert ist, ja jedes Mal ein anderes
Tom: Video ist, hast du auch eine extreme Variation. weil du eine Variation praktisch im Input hast.
Tom: Dadurch hast du eigentlich keine Gleichheit im Output.
Stella: Das, worüber wir gesprochen haben, waren jetzt viel Milo und Ella.
Stella: Aber einen haben wir so ein bisschen ausgeklammert. Der Theo.
Stella: Den wollten wir natürlich nicht benachteiligen, sondern zu dem kommen wir jetzt.
Stella: Theo ist ja euer Angebot für Text-to-Video.
Stella: Und du hast gerade schon mal Google eingeführt, aber es ist ja auch so,
Stella: OpenAI hat beispielsweise mit Sora dafür auch ein Video-Tool.
Stella: Google hat jetzt VO3 auf den Markt gebracht jüngst.
Stella: Und das sind ja doch eigentlich genau Tools, die das machen,
Stella: was Theo auch kann, oder? Man gibt Text ein und bekommt Video raus.
Tom: Der technische Teil ist richtig. Aber wo tatsächlich der Wert drin steckt,
Tom: ist, Google hat nicht das Brand Kit von einem Beiersdorf.
Tom: Das heißt, wenn ich jetzt als Beiersdorf-Mitarbeiterin Google prompte und sage,
Tom: bau mir raus ein Video, dann ist da weder mein Logo drin, noch meine richtige
Tom: Schriftart, die Google gar nicht lizenziert hat, weil es eine Inhouse-Schriftart
Tom: ist, noch baut mir Google GEMA-lizenzierte Musik drauf und so weiter.
Tom: Weil Google ist ja sehr gut in einer generativen KI und das ist ja eine Sache,
Tom: die Unternehmen eben nicht wollen, sondern die brauchen halt,
Tom: du brauchst eigentlich so einen Mittelmann, der sagt, okay, ich habe die Brand
Tom: Identity da drin, ich habe auch vielleicht unsere Media Library angebunden,
Tom: weil so ein Biosdorf hat ja schon tausende Videos.
Tom: Und wenn ich jetzt aus einem Textdokument eine Pressemitteilung bei Biosdorf,
Tom: die über ein neues Nivea-Produkt spricht, daraus möchte ich ein Video machen,
Tom: dann hat Google weder meine Files von der neuen Creme noch die Videos,
Tom: die wir vielleicht schon geshootet haben und das ist eben auch bei Theo bei
Tom: Cofenster angeschlossen, sodass eben so ein Konzern sagt, er hat seine Media Library,
Tom: aus der sich Theo bedient und das Brand Kit, aus der sich Theo bedient und deswegen
Tom: wird eigentlich ein gutes Video erstellt.
Tom: Weil gerade im Unternehmenskontext bringt es mir relativ wenig.
Tom: Ich meine, gehen wir zu Google oder zu OpenAI und sagen, bauen wir mal bitte
Tom: ein Continental-Logo, das ist ein BMW-Logo.
Stella: Das heißt aber auch, das ist ja ein Argument, was dann wahrscheinlich ihr aufführt
Stella: für die Nutzung von euren Angeboten eben ist,
Stella: dass ihr diese Datensicherheit garantiert, weil im Umkehrschluss,
Stella: glaube ich, würde ich keinem Unternehmen empfehlen, einmal das komplette Media
Stella: Kit bei welchem Tool auch immer reinzuhauen.
Tom: Richtig. Bitte nicht. Auch keine persönlichen Daten. Auch wenn ich darüber vielleicht
Tom: mit GPT sehr gut sparen könnte, wie ich gerade meine Beziehungskrise löse,
Tom: die nicht vorhanden ist.
Tom: Aber als Beispiel, das sind alles persönliche Daten, die ich da niemals reinfüttern
Tom: will, weil ich kann irgendjemand abrufen und kann sehr gute Profile bauen.
Tom: Es kann auch zu sehr, sehr, sehr viel Themen führen, die ich nicht haben möchte.
Tom: So ein Unternehmen haben proprietäre Daten, das sind Mitarbeiterdaten,
Tom: das sind Sachen, wie du angesprochen hast, Brandkit etc.
Tom: Die füttern die da nicht rein oder sollten es zumindest nicht tun.
Tom: Und deswegen brauchst du halt irgendwo eine Schnittstelle, halt irgendjemand,
Tom: der sich hinstellt und sagt, hey, Cofenster garantiert dir, dass wir das nicht
Tom: machen und wir lassen uns halt dieses Jahr vom TÜV zertifizieren.
Tom: Wir haben die ISO 27001, Europäische AI Act, Compliance und so die ganzen regulatorischen
Tom: Themen, weil im schlimmsten Fall kommt dann irgendwann so ein Bias auf dem Markt
Tom: und dann, da haben wir ja einen Data Leak. Das wird dann sehr schnell teuer.
Tom: Du willst nicht diejenige sein, ein Konzern, die das verbrochen hat,
Tom: auf gut Deutsch gesagt, sondern im Zweifel möchtest du jemanden haben,
Tom: der dir das garantiert und halt irgendwie ein deutsches Unternehmen,
Tom: was das halt sicherstellt.
Stella: Das ist natürlich für euch auch immer Interesse, weil sollte sowas passieren,
Stella: wäre ja auch euer Ruf extrem beschädigt.
Tom: Absolut. Deswegen ist das Thema Datensicherheit bei uns ein fundamentales DNA-Thema
Tom: und wir geben auch sehr, sehr viel Geld aus jedes Jahr für jegliche Zertifizierung, Prüfungen.
Tom: Es ist nicht günstig, sich vom TÜV zertifizieren zu lassen auf so einer ISO-Norm.
Stella: Jetzt aber auch noch eine Frage. Wir kommen so langsam zum Abschluss.
Stella: Wir wollen auch nochmal kurz in die Zukunft gucken in dieser Folge.
Stella: Jetzt ist es aber auch so, man sagt ja immer noch in den USA,
Stella: auch wenn sich die wirtschaftliche Lage sehr geändert hat, ist gerade für junge
Stella: Unternehmen mehr Geld zu holen. Auch ihr habt ja jüngste Investoren für euch
Stella: wieder gewonnen, ihr seid ein Start-up, ihr wollt weiter wachsen.
Stella: Ist da nicht eigentlich das US-Geschäft vielleicht mit keinem AI-Act,
Stella: weniger Regulatorik, verheißungsvoller als das europäische unbedingt?
Tom: Es gibt verschiedene Stimmen, dazu auch aus unserem Investorenkreis,
Tom: das sind natürlich Sachen, die wir diskutieren. Möchtest du eigentlich in Europa
Tom: wachsen oder möchtest du in den USA wachsen?
Tom: Europa hat 500 Millionen Menschen und wir haben einen sehr starken Markt hier vor uns.
Tom: Und was wir sehen ist, wir haben hier angefangen, wir sind aktuell Marktführer
Tom: im Dachbereich und wir wollen erstmal in Europa expandieren,
Tom: bevor wir in die USA gehen.
Tom: Auch weil es einen gewissen Anspruch einfach gibt, auch europäische Champions zu bauen.
Tom: Und ich glaube nicht, dass Europa langfristig davon profitiert,
Tom: wenn wir gute KI und gute Tech-Unternehmen nur in den USA bauen.
Tom: Das hat jetzt nichts mit Patriotismus zu tun, sondern einfach mit für mich gesunden Menschenverstand.
Tom: Ich liebe unsere freiheitlichen Gesetze und ich liebe auch alles für das, was Europa steht.
Tom: Und das kriegst du nur langfristig geschützt, wenn hier auch ein gewisser Wachstum
Tom: entsteht. Und das steht nun mal im KI-Markt.
Tom: Das heißt, wenn jetzt alle Unternehmen nur in die USA gehen,
Tom: dann verdienst du wahrscheinlich einen Euro 50 mehr. Ja, aber ich weiß nicht,
Tom: ob wir damit uns selbst langfristig hier einen Gefallen tun.
Tom: Also es gibt natürlich den ökonomischen Aspekt davon, den du angesprochen hast
Tom: und das diskutieren wir auch. Aber wir haben gesagt Europa first und dann schauen
Tom: wir uns mal an, was danach kommt.
Stella: Europa first, das heißt die nächsten zwei bis drei Jahre plant ihr sehr mit
Stella: europäischem Fokus oder wie sieht es da zeitlich aus?
Tom: Sehr mit europäischem Fokus und ich meine bei 500 Millionen Menschen und irgendwie
Tom: 14 Billionen Euro BIP, GDP, whatever.
Tom: Hier ist ein Riesenmarkt, da kannst du hunderte Millionen Euro Umsatz machen.
Tom: Und da würde ich ganz ehrlich erstmal hinkommen, bevor wir dann über das nächste Große sprechen.
Stella: Jetzt sind eure Kunden in Deutschland. Was ist so das nächste Land?
Stella: Oder habt ihr da vielleicht auch schon Gespräche, wo ihr sagt,
Stella: auf dem europäischen Kontinent, da geht es für uns weiter?
Tom: Also wir sind im Moment in der DACH-Region, also auch viele Schweizer Kunden,
Tom: viele österreichische Kunden, viele auch in Dänemark, auch in Frankreich.
Tom: Wir gucken uns das gerade intensiv an.
Tom: Die skandinavischen und vor allem Binnenlux-Länder sind sehr,
Tom: sehr spannend. weil es ist, wenn du die zusammennimmst, auch wenn es nicht der
Tom: gleiche Markt ist, auch ein sehr relevanter Player.
Tom: Deswegen, wir orientieren uns wahrscheinlich erst Richtung Nordwesten.
Stella: Aber dann gucken wir doch mal, ich meine, was macht denn die Konkurrenz?
Stella: Du hast ja schon klar gemacht, OpenAI, Google, aufgrund der Art,
Stella: wie die Anwendungen gebaut sind, sind vielleicht jetzt nicht in erster Linie eure Konkurrenten.
Stella: Das ist jetzt das Gleiche gilt für die DaVinci, Adobe etc.
Stella: Aber wer steht auf eurer Liste, wo ihr sagt, den gucken wir uns genau an?
Tom: Es gibt jeden Tag neue KI-Startups im Videobereich, jeden einzelnen Tag.
Tom: Wir haben alleine im letzten Quartal, glaube ich, 50 Player identifiziert,
Tom: die in Amerika und Europa ähnliche Tools bauen wie wir.
Tom: Das heißt, das ist ein extremer Wachstumsmarkt und da kommt auch sehr viel auf den Markt.
Tom: Was wir uns wirklich anschauen und das ist auch unsere Unternehmensstrategie,
Tom: wir bauen für große Mittelsteller für Enterprise Kunden und dadurch kriegst
Tom: du einen gewissen Login hin,
Tom: weil wenn mal so eine Media Library bei einem großen Konzern eigentlich angeschlossen
Tom: ist, das Brand Kit integriert ist und das 30 Teams nutzen, die alle happy sind,
Tom: dann können auch noch fünf andere anklopfen, das kriegst du so einfach nicht raus.
Tom: Und was halt, wie gesagt, auch wieder auf dem Enterprise-Fokus,
Tom: diese Sicherheit, dieser Sicherheitsaspekt, gerade mit KI, wird immer wichtiger,
Tom: Jahr für Jahr, auch wenn wir mal fünf Jahre nach vorne gucken.
Tom: Und da an der Forefront zu bleiben und einfach eine ganz klare,
Tom: saubere Positionierung zu sagen, wir sind gemacht für große Unternehmen mit
Tom: all den Themen, die ich gerade aufgezählt habe und das machen wir sehr gut,
Tom: das machen wir historisch sehr gut und ihr könnt auch gerne Referenz-Calls machen.
Tom: Dann kann so ein Startup-Jugend-Forsch-Team auch aus Dänemark kommen,
Tom: die irgendwie mit drei Engineers ein ähnliches Produkt gebaut haben.
Tom: Die laufen nicht durch einen Procurement-Prozess und durch einen Betriebsratsprozess
Tom: und durch einen Cyber-Security-Prozess bei einem deutschen Konzern,
Tom: weil es dauert auch manchmal gute zwölf Monate, dann brauchst du die Zertifizierung
Tom: und so weiter und so fort. Also wir haben eine ganz klare Positionierung.
Tom: Wir freuen uns auch über Wettbewerb. Das macht den Markt größer.
Tom: Da sind wir relativ entspannt und haben da eigentlich eine sehr gute,
Tom: glaube ich, positive Richtung, die wir da eingeschlagen haben.
Stella: Das hört man aus deiner Antwort raus. Was mir zum Abschluss noch wichtig ist,
Stella: du hast eben Jugend forscht als Beispiel angebracht, junge Menschen und hast
Stella: es aber auch im Podcast gesagt, dass es ja auch gerade die klassischen Praktikantenaufgaben sind.
Stella: Wieso sorgt ihr eigentlich dafür, dass nicht eines Tages eure Technologie dafür
Stella: zuführt, dass gerade junge Menschen es schwer haben, im Marketing anzukommen,
Stella: in Abteilungen, wo dann beispielsweise Co-Fans aktiv ist, weil die Praktikantenaufgaben
Stella: werden dann quasi von KI outgesourcet.
Tom: Das ist so ein bisschen die gleiche Frage, wie sind wir damals mit den Kutschern
Tom: umgegangen, als es dann irgendwie Taxis gab.
Tom: Es gibt Aufgaben, einfach wenn wir jetzt sagen Schnittaufgaben,
Tom: die wird es nicht mehr geben.
Tom: Da müssen wir auch ganz ehrlich miteinander sein, das sind keine Praktikantentätigkeiten.
Tom: Aber was ein Praktikant, und da kommen wir, glaube ich, zu wieder dem größten
Tom: Hebel, lernen kann, ist, wie er so ein KI-System bedient.
Tom: Und wie er, anstatt zwei Stunden zu schneiden und ein Video zu produzieren,
Tom: in diesen zwei Stunden 15 Videos produziert, mit der KI, um für mein Unternehmen
Tom: bessere Social-Media-Arbeit zu machen.
Tom: Also es ist ein Produktions-Gain für den Praktikant und fürs Unternehmen.
Tom: Und du lernst halt, und das sind, glaube ich, auch die Jobs der Zukunft eher,
Tom: wie bearbeitest du oder wie arbeitest du gut mit KI-Assistenten zusammen,
Tom: damit du einfach mehr Output bekommst, anstatt zu sagen, ich möchte mich jetzt
Tom: unbedingt, ich möchte besser schneiden als irgendwie ein KI-System, weil das wirst du nicht.
Tom: Und wir sind auch am Anfang. In zehn Jahren ist da absolut null Chance,
Tom: dass ein Mensch auf modernen Arbeitstasen besser ist als eine KI oder ein besseres
Tom: Excel-Modell baut im Banking oder wo auch immer.
Tom: Das ist einfach utopisch. Das wird nicht passieren.
Stella: Finale Frage an dich. Du hast in zehn Jahren angesprochen und die beiden Zeitblöcke
Stella: in fünf Jahren, in zehn Jahren, wo ist Co-Fenster dann? Gib uns einen Ausblick.
Tom: Also ich kann eben mal die nächsten 24 Monate einen Ausblick geben.
Tom: Ich glaube, alles darüber hinaus wäre wahnsinnig.
Tom: Oder wer Visionen hat, soll zum Arzt gehen. Hat auch ein großer Hamburger gesagt.
Tom: Die nächsten 24 Monate sind für uns, wir konsolidieren gerade unsere K-Agenten,
Tom: machen die wirklich vollautonom und bringen die qualitätsmäßig in die Spitze.
Tom: Das nächste Thema ist, wir werden danach einen neuen Agenten launchen,
Tom: der sich das ganze Thema wirklich High-Quality-Production-Themen anguckt.
Tom: Weil wenn du Renderings von einem VW hast...
Tom: Wenn ich CAD-Dateien von so einem Auto habe aus der Forschung,
Tom: kann ich auch einen Prompt schreiben und sage, bitte pack mir dieses Auto in
Tom: silbergrau nach Island und ich möchte eine weibliche Rennfahrerin haben,
Tom: die das fährt und daraus möchte ich einen Spot haben mit folgendem Mut und der soll das und das tun.
Tom: Das ist technisch noch lange nicht da, aber wenn wir sagen lange,
Tom: dann reden wir von 6, 12, 24 Monaten, aber dahin möchte ich mir kommen,
Tom: weil das sind auch tatsächliche Use Cases, die sehr, sehr viel Geld kosten aktuell
Tom: und die man auch besser machen könnte.
Stella: An der Stelle, Tom, vielen Dank, dass du heute bei uns, bei t3n Interview, zu Gast gewesen bist.
Tom: Danke, dass ich da sein durfte.
Stella: Und wir kommen für diese Folge zum Ende. Was mir noch wichtig ist,
Stella: wenn ihr Lust habt, unseren Journalismus bei t3n zu supporten,
Stella: weil ihr Lust habt auf unabhängige Tech-News, dann klickt doch mal auf den Link,
Stella: den ihr in den Shownotes findet.
Stella: Da seht ihr nämlich die aktuellen Abo-Angebote und schaltet nächste Woche wieder ein. Auf Wiederhören.
Neuer Kommentar