Nachricht

Wenn die KI-Daten nicht ausreichen, können wir sie dann mithilfe von Papieren „nachholen“?

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

14. August
Die offizielle Website von Nature veröffentlichte einen Artikel, der dies besagt
Mehrere akademische Verlage investieren in Technologieunternehmen
Verkauf der Rechte zur Nutzung von Forschungsarbeiten
Wird zum Trainieren von KI-Modellen verwendet
In vielen Fällen handelt es sich um Transaktionen
Der Autor wurde nicht konsultiert
Dies löste bei manchen Forschern große Unzufriedenheit aus.
Papiere, die „verraten“ wurden
Naturmaßstab
Britische akademische Verlage
Taylor Francis
Habe bereits einen Vertrag mit Microsoft unterzeichnet
Vereinbarung im Wert von 10 Millionen US-Dollar
Erlauben Sie Microsoft den Zugriff auf seine Daten
KI-Systeme zu verbessern
Im Juni gab es Neuigkeiten darüber
Amerikanischer Verleger Wiley
Ermöglichen Sie einem Unternehmen, seine Inhalte zum Trainieren von Modellen zu verwenden
und verdiente damit 23 Millionen US-Dollar
Naturmaßstab
Diese Papiere umfassen
Naturwissenschaften, Sozialwissenschaften und andere Bereiche
Es ist zu einem wichtigen Korpus für das KI-Modelltraining geworden.
Ein Malroboter demonstrierte das Malen auf dem „Artificial Intelligence for Humanity Global Summit“ 2024 in Genf, Schweiz.
Quelle: Nachrichtenagentur Xinhua
Naturartikel denkt
Aktuelle Autoren wissenschaftlicher Arbeiten
Wenn Verlage ihre urheberrechtlich geschützten Werke verkaufen
fast kein Einmischungsrecht
Für veröffentlichte Artikel
Es gibt keinen Mechanismus zur Bestätigung dieser Inhalte
Ob es als KI-Trainingsdaten verwendet wird
Bei der Verwendung großer Sprachmodelle
So etablieren Sie einen gerechteren Mechanismus
Schützen Sie die Rechte der Urheber
Es verdient eine ausführliche Diskussion in der Wissenschaft und in Urheberrechtskreisen
Nicht genügend KI-Daten
Papiere zum „Nachholen“
Drei Hauptelemente für die Entwicklung großer Modelle mit künstlicher Intelligenz
Es geht um Daten, Algorithmen und Rechenleistung
Mit der rasanten Entwicklung der KI-Technologie
Wachsende Nachfrage nach Trainingsdaten
Einige Medien sagten
Ende 2021
OpenAI-Training GPT-4
bin auf ein schwieriges Problem gestoßen
Seine Schulung wurde im Internet erschöpft
Zuverlässige englische Textressource
Dann
Um dieses Problem zu lösen
OpenAI verwendet Video und Audio von der YouTube-Plattform
Transkribieren Sie große Mengen an Gesprächstexten
Anschließend Training
Am 2. Juli kommunizierten Mitarbeiter mit digitalen Menschen im immersiven Erlebnisbereich der digitalen Wirtschaft der 2024 Global Digital Economy Conference.
Foto von Ren Chao, Reporter der Nachrichtenagentur Xinhua
Jetzt
Technologiegiganten verlagern ihren Fokus auf
wissenschaftlicher Verlag
wissenschaftliche Arbeiten als
Die Kristallisation von Weisheit im Bereich der wissenschaftlichen Forschung
Werden Sie zum „heißen Kuchen“, den die Leute gerne kaufen.
Nehmen Sie als Beispiel die Verarbeitung natürlicher Sprache
Durch Schulung in einer großen Anzahl von Arbeiten
KI-Modelle können es besser verstehen
akademisches Fachwissen
seine Genauigkeit verbessern
Technologiegiganten wie Google und Microsoft
Habe viel in den Kauf von Korpora investiert
Um einen Wettbewerbsvorteil im Bereich KI zu erlangen
Die Financial Times hat eigene Inhalte eingestellt
zu einem respektablen Preis
Verkauft an OpenAI
Social-News-Seite Reddit
Eine ähnliche Vereinbarung wurde auch mit Google getroffen
Diese Transaktionen spiegeln wider
Verlage versuchen, rechtlich zu genehmigen
Vermeiden Sie, dass Ihre Inhalte kostenlos von KI-Modellen gecrawlt werden
Trainingsdaten-Dilemma
Wie man das Spiel unterbricht
Arbeiten Sie mit Verlagen zusammen
Es sind nur Technologieunternehmen, die das Problem lösen
Der Inbegriff des Problems unzureichender Trainingsdaten
Kürzlich
Die Zeitschrift Economist veröffentlicht einen Artikel
„KI-Unternehmen werden bald den Großteil der Daten des Internets verbrauchen“
Sagen Sie voraus, was im Internet verfügbar ist
Die menschlichen Textdaten werden in vier Jahren erschöpft sein
Am 23. April spielten Besucher auf der Hannoverschen Industriemesse in Deutschland das „Stein, Papier, Schere“-Spiel mit einem intelligenten Roboter.
Foto von Ren Pengfei, Reporter der Nachrichtenagentur Xinhua
Konfrontiert mit einem solchen Problem
OpenAI-Gründer und CEO Sam Altman
Es wurde eine Problemumgehung vorgeschlagen:
Unternehmen wie OpenAI
Irgendwann wird es eine Verlagerung hin zur Nutzung von KI-generierten Daten geben
(auch bekannt als synthetische Daten), um KI zu trainieren
Entwickler entwickeln dabei immer leistungsfähigere Technologien
Es würde auch die Abhängigkeit von urheberrechtlich geschützten Daten verringern
sicherlich
Ist dieser technische Weg machbar?
Es gibt immer noch Kontroversen
Dies wurde in einem Titelartikel der Zeitschrift Nature argumentiert
Sofern das große Modell erlaubt ist
Trainieren Sie sich mit automatisch generierten Daten
KI kann sich selbst degradieren
In nur wenigen Generationen der ursprüngliche Inhalt
In unwiederbringlichen Unsinn verwandelt
Zusätzlich zu synthetischen Datenmethoden
Weiterer offener Austausch öffentlicher Daten
gilt auch als effektiver Weg
Der Bericht von Industrial Securities wies darauf hin
Stärken Sie die offene Entwicklung öffentlicher Daten
ist die aktuelle Lösung für die Datenstreuung
Wichtige Maßnahmen zur Verbesserung der Trainingsdatenqualität
Geschrieben von:Li Fei, Ma Jingyuan Satz:Li Wenjian Koordinator:Li Zhengwei
Referenz丨Nature, The Paper, China Financial News Agency, 21st Century Business Herald
Produziert von Guangming.com
Quelle: Welt-Internetkonferenz
Bericht/Feedback