KI für Ahnenforscher – ein Überblick
Neue technische Entwicklungen und Anwendungen haben auch der Ahnenforschung immer wieder neue Schübe gegeben, zunächst z.B. in Gestalt von Scannern und Microfiche-Geräten und dem Internet mit Anwendungen wie e-Mail und Suchmaschinen. In den letzten 2 – 3 Jahren haben erneut bahnbrechende digitale Neuerungen Einzug in den Alltag und damit auch der Genealogie gehalten: Anwendungen aus dem Bereich der sogenannten Künstlichen Intelligenz (KI).
Inhaltsübersicht
Was bedeutet eigentlich KI?
KI ist die Abkürzung für Künstliche Intelligenz und steht für computer-basierte Systeme, die gewissermaßen menschliche Intelligenz nachahmen und unterschiedlichste (menschliche) Aufgaben bewältigen können.
Um gleich einmal ein Beispiel für die Anwendung zu geben, habe ich ein KI-System befragt, das gerade in aller Munde ist: ChatGPT. Es hat mir folgende kompakte Übersicht über verschiedene Teilbereiche von KI erstellt, die jeweils auf unterschiedliche Aufgaben und Fähigkeiten fokussieren, welche auch für uns Ahnenforscher relevant sein können:
1. Künstliche Intelligenz (KI):
KI ist der übergeordnete Begriff, der Technologien beschreibt, die es Maschinen ermöglichen, Aufgaben zu erledigen, die normalerweise menschliche Intelligenz erfordern. Diese Aufgaben umfassen Problemlösung, Mustererkennung und Entscheidungsfindung.
2. Machine Learning (ML):
ML ist ein Teilbereich der KI. Es konzentriert sich darauf, Maschinen beizubringen, aus Daten zu lernen, anstatt sie explizit zu programmieren. ML-Algorithmen identifizieren Muster in Daten und nutzen diese Muster, um Vorhersagen zu treffen oder Entscheidungen zu treffen.
Verbindung zu KI: ML ist ein wesentlicher Teil der modernen KI, da viele KI-Systeme ML verwenden, um effizienter und autonomer zu werden.
3. Deep Learning (DL):
DL ist eine spezialisierte Unterkategorie von Machine Learning, die neuronale Netze mit vielen Schichten verwendet, um komplexe Muster und Zusammenhänge in großen Datenmengen zu erkennen.
Verbindung zu ML und KI: DL ist ein fortschrittlicher Ansatz innerhalb von ML und wird oft für sehr komplexe Aufgaben eingesetzt. Da DL-Modelle große Mengen an Daten und Rechenleistung benötigen, haben sie in den letzten Jahren enorme Fortschritte in der KI erzielt.
4. Natural Language Processing (NLP):
NLP ist ein Bereich der KI, der sich mit der Verarbeitung und dem Verständnis von menschlicher Sprache befasst. Es umfasst Anwendungen wie Sprachübersetzung, Textanalyse, Chatbots und Sprachsteuerung.
Verbindung zu ML und KI: NLP verwendet ML-Algorithmen (einschließlich Deep Learning), um Sprache zu verstehen und darauf zu reagieren. Es ist ein wichtiger Anwendungsbereich von KI, da die Verarbeitung natürlicher Sprache eine der komplexesten Aufgaben für Maschinen ist.
5. Computer Vision (CV):
Computer Vision ermöglicht es Maschinen, visuelle Daten (wie Bilder und Videos) zu „sehen“ und zu verstehen. Dies beinhaltet Objekterkennung, Bildklassifizierung und das Verständnis von Szenen.
Verbindung zu ML und DL: Computer Vision setzt häufig Deep-Learning-Modelle ein, um Muster in Bildern zu erkennen, z. B. zur Identifizierung von Objekten oder Gesichtern. CV ist ein Schlüsselbereich der KI und verwendet ML, um die visuelle Wahrnehmung von Maschinen zu verbessern.
KI und ihre Teilbereiche
Diese von ChatGPT geschriebene Übersicht ist doch schon recht ordentlich, und sie hat auch gleich schon Hinweise auf die Verbindungen zwischen den einzelnen Teilbereichen gegeben.
Künstliche Intelligenz (KI) ist also der übergeordnete Begriff, der Machine Learning, Natural Language Processing, Computer Vision und andere Technologien umfaßt.
Machine Learning (ML), auf Deutsch: Maschinelles Lernen, ist dabei ein sehr zentraler Teilbereich der KI, der in den letzten Jahren immer populärer wurde. Bei Machine Learning geht um die Befähigung von Maschinen, eigenständig aus vorhandenen Daten zu lernen.
Deep Learning (DL) ist wiederum ein spezialisierter Bereich des Maschinellen Lernens mit sogenannten neuronalen Netzen, die der Struktur des menschlichen Gehirns nachempfunden sind, und wird oft für Aufgaben im Bereich Computer Vision und Natural Language Processing eingesetzt.
Natural Language Processing (NLP) und Computer Vision (CV) sind spezifische Anwendungsbereiche von KI, die auf ML bzw. DL zurückgreifen, um geschriebene und gesprochene Sprache bzw. visuelle Daten zu verstehen.
NLP als solches ist allerdings kein neues Phänomen. Praktische Anwendungen zur elektronischen Verarbeitung natürlicher Sprache gibt es inzwischen seit Jahrzehnten und praktisch jeder nutzt sie, z.B. in Form von Rechtschreibkorrekturfunktionen, Internet-Suchmaschinen, Sprachsteuerung bei Telefonanlagen oder in Fahrzeugen und nicht zuletzt bei sprachgesteuerten Alltagshelfern wie Apple Siri oder Amazon Alexa.
Im Fokus: Generative KI und Large Language Models (LLMs)
Das, was in den letzten zwei Jahren seit 2022 rasant aufgekommen ist, NLP erweitert hat und zu einem populären Massenphänomen geworden ist, sind die sogenannten Large Language Models (LLM) und die darauf basierenden Anwendungen von Generativer KI.
LLMs sind große generative (=erzeugende) Sprachmodelle aus dem Bereich Deep Learning, die auf neuronalen Netzwerken mit sogenannter Transformer-Architektur basieren und in der Lage sind, natürliche geschriebene und gesprochene Sprache zu verstehen, zu verarbeiten und vor allem zu generieren. Diese Modelle werden dafür auf Grundlage riesiger Datenmengen trainiert.
Inzwischen sind die Sprachmodelle aber nicht mehr nur auf Sprache beschränkt, sondern funktionieren multimodal, d.h. Eingaben und Ausgaben können in verschiedenen Datenformaten vorliegen, also sowohl Text, Bild, Video oder Audio sein. Solche nicht nur auf Sprache beschränkten Modelle werden deshalb auch etwas allgemeiner Foundation Models genannt.
Diese Modelle werden also auf Daten aller Art trainiert und können dann verschiedene Arten von Ausgaben erzeugen, je nachdem für welchen Anwendungsfall sie eingesetzt werden. Verschiedene Modelle haben auch unterschiedliche Stärken und Schwächen.
Allen diesen Anwendungen ist gemeinsam, daß sie vom Nutzer über sogenannte Prompts gesteuert werden. Ein Prompt ist eine Eingabeaufforderung oder Anweisung, um eine bestimmte Antwort oder Aktion auszulösen. Je klarer und präziser diese Anweisungen sind, desto besser ist das erzeugte Ergebnis.
Welche KI-Werkzeuge gibt es?
In diesem Beitrag wollen wir uns auf solche multimodalen Anwendungen beschränken, da sie einerseits die nützlichsten Anwendungsfälle für uns Ahnenforscher und andererseits niedrigschwellige Zugangsmöglichkeiten bieten.
Folgende Werkzeuge sind besonders populär:
- ChatGPT (Anbieter: OpenAI) – chatgpt.com
- Google Gemini (ehemals Bard, Anbieter: Google) – gemini.google.com
- Claude (Anbieter: Anthropic) – claude.ai
Außerdem gibt es z.B. praktische Hilfsmittel wie Midjourney und DALL-E zur Bilderzeugung, Transkribus zur (Hand-)Schriftenerkennung sowie Perplexity und NotebookLM als Assistenz für Recherche, Suche und Quelleninteraktion.
Darüber hinaus sind KI-Anwendungen inzwischen auch in vielen anderen Plattformen integriert worden, so z.B. Copilot in der Suchmaschine Bing von Microsoft oder KI-getriebene Funktionen in Ahnenforscher-Plattformen wie MyHeritage* (mit den Werkzeugen Photo Repair, Photo Enhancer, MyHeritage In Color™, Deep Nostalgia™, DeepStory, AI Time Machine™ * und Reimagine) sowie Ancestry.
KI für die Ahnenforschung
Im Rahmen der genealogischen Arbeit fallen jede Menge unterschiedlicher Tätigkeiten an. Viele von ihnen können gut gänzlich oder teilweise automatisiert werden. Neben klassischer genealogischer Werkzeuge wie GEDCOM-Programmen oder Datumsrechnern können nun auch immer mehr und immer besser KI-getriebene Werkzeuge zum Einsatz kommen.
Welche Aufgaben können KI-Anwendungen übernehmen?
Be- und Verarbeiten
- Transkription: Erkennung und Umwandlung von Bild-, Video- und Audiodaten in Text, z.B. alter Handschriften
- Zusammenfassung und Analyse: Umgang mit großen Datenmengen z.B. in Form von Zusammenfassungen, Erläuterungen und Analysen von langen Texten
- Übersetzung: Übertragung von Text-, Bild-, Video- und Tondokumenten in andere Sprachen
- Textextraktion: Extrahieren von Text aus Bildern und PDF-Dateien
- Textoptimierung: Stiländerungen, Rechtschreibkorrekturen und Nachbearbeitung von Texten z.B. aus eingescannten Dokumenten (OCR)
- Bildbearbeitung: Verändern und Verbessern von Fotos z.B. durch Kolorierung, Restaurierung und Qualitätsoptimierung
Analyse
- Bilderkennung: Erkennen und Identifizieren von Gesichtern in Fotos
- Altersbestimmung: zeitliches Einordnen von Fotos
- Vergleichen: Gegenüberstellungen und Vergleiche von Webseiten, Produkten u.a.
Erzeugen
- Bild- und Videogenerierung: Erstellen neuer Bilder und Filme
- Texterstellung: Schreiben von Texten aller Art, z.B. für Familienbücher, Blogbeiträge, Nachrufe
- GEDCOM-Erzeugung: Erstellen von strukturierten Familienbaumdaten im GEDCOM-Format aus unstrukturiertem Fließtext und umgekehrt
- Codeerstellung: Erzeugen von Programmcode für Webseiten, Anwendungen etc.
Recherchieren
- Internetrecherche: Informationsbeschaffung zu bestimmten genealogischen Themen im Internet
- Quellenanalyse: Recherche in und Interaktion mit vorhandenen Quellen aller Art mit natürlicher Sprache
Die Einsatzmöglichkeiten sind wirklich zahlreich und werden auch ständig erweitert.
Wichtig zu wissen
(Generative) KI-Werkzeuge haben ihre hilfreichen Seiten, weisen aber auch problematische Aspekte auf, die man sich als Nutzer vorab bewußt machen und immer im Hinterkopf behalten sollte. Hier sind ein paar wichtige Punkte:
Vorteile
- Effizienz & Geschwindigkeit: KI-Modelle können Aufgaben schnell und effizient erledigen
- Produktivität: Viele sich wiederholende und routinemäßige Aufgaben können durch generative KI automatisiert werden
- Kreativität: Generative KI-Modelle können neue und originelle Inhalte erstellen und so die menschliche Kreativität ergänzen
- Persönlicher Assistent: Anwendungsmöglichkeiten für individuelle Aufgaben
Nachteile
- Sogenannte Halluzinationen & begrenztes Wissen: Erstellte Inhalte können zwar plausibel klingen, aber faktisch falsch sein
- Fehlende menschliche Eigenschaften: ChatGPT & Co verfügen nicht über „echte“ menschliche Eigenschaften und Fähigkeiten wie Intuition, Bewußtsein & Empathie, sondern funktionieren rein algorithmisch (= mit festgelegten Regeln) und probabilistisch (= mit Wahrscheinlichkeiten).
- Mangelnde Transparenz: Es bleibt für Anwender unklar, auf welchen Daten die Modelle trainiert wurden und wie Ergebnisse zustande kommen
Mein Spickzettel für den Schnelleinstieg
Du möchtest mehr zum Thema wissen? Um Dir diese komplexe neue Materie anschaulich darzustellen und den Einstieg zu erleichtern, habe ich für Dich eine erste Handreichung in meiner geplanten Spickzettel-Reihe erstellt: Generative KI-Werkzeuge: ChatGPT & Co für Ahnenforscher.
Was erwartet Dich?
- Grundlagen der generativen KI: Eine kompakte Übersicht zu Künstlicher Intelligenz und generativen KI-Modellen, die auf Maschinellem Lernen, Deep Learning & Neuronalen Netzwerken basieren
- Wichtige Stärken & Schwächen von generativen KI-Werkzeugen: Hinweise auf hilfreiche & problematische Aspekte
- Die drei führenden Werkzeuge im direkten Vergleich: Eine detaillierte Übersicht über Funktionen und Preisstrukturen von ChatGPT, Google Gemini und Claude – sowie ihre Stärken und Schwächen
- Wichtige Anwendungsbereiche für Ahnenforscher: Ideen, wie ChatGPT & Co für die Familienforschung eingesetzt werden können
- Praktische Tipps & nützliche Infos: Eine Anleitung zur effektiven Nutzung von ChatGPT & Co durch die Erstellung präziser Prompts – damit Du das Beste rausholen kannst
Der Spickzettel umfaßt 4 Seiten und ist im PDF-Format erhältlich.
Du kannst ihn also digital am Bildschirm verwenden oder ihn ausdrucken, um ihn jederzeit zur Hand zu haben.
Neugierig?
P.S.: ÜBRIGENS: Bis zum 3. Oktober 2024 um 23:59 Uhr erhältst Du den Spickzettel mit dem Gutscheincode SPICKEN2024 zum Vorzugspreis von 4,49 € – also jetzt gleich sichern!
[…] https://welt-der-vorfahren.de/2024/09/ki-fuer-ahnenforscher-ueberblick/ […]