nachricht

was tun, wenn den menschen die daten ausgehen? xiao yanghua, professor an der fudan-universität, schlug zwei lösungen vor:

2024-09-07

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

das red star capital bureau berichtete am 7. september, dass der wert von daten im zeitalter von big data noch nicht vollständig erforscht sei. sobald das ki-zeitalter anbricht, stehen daten vor der herausforderung, zu schnell verbraucht zu werden, was zu synthetischen daten führt datentechnologie ein heißes feld. laut einem im juni veröffentlichten bericht der forschungsorganisation epoch ai wird die menge der von menschen generierten neuen daten geringer sein als die menge der von modellen gelernten neuen daten. es wird geschätzt, dass großen sprachmodellen die menge an menschlichen daten ausgehen wird daten bis 2028.
daten bestimmen bis zu einem gewissen grad die obergrenze der intelligenz. je mehr durchbrüche in der großmodelltechnologie erzielt werden, desto mehr muss die datentechnologie darauf „ausgerichtet“ werden.
während der bund-konferenz 2024 sagte xiao yanghua, professor an der fudan-universität und direktor des shanghai key laboratory of data science, in einem interview mit dem red star capital bureau und anderen medien, dass es möglicherweise zwei wege gibt, das problem der datenerschöpfung zu lösen in der zukunft. bei der ersten handelt es sich um synthetische daten, bei der anderen handelt es sich um den privaten bereich.
xiao yanghua
„viele menschen haben die vier bücher und fünf klassiker kommentiert. der annotationsprozess ähnelt dem prozess der datensynthese. wir können die originaldaten kontinuierlich denken, korrelieren und integrieren, um mehr daten zu generieren. dies sind synthetische daten.“ , synthetische daten sind eine sehr wichtige idee. dies dient nicht nur der linderung des problems der datenerschöpfung, sondern ist auch von großer bedeutung.
„die meisten synthetisierten daten sind die daten unseres denkprozesses. durch synthetische daten wird eine große menge an daten ausgedrückt, die implizit, nicht aufgezeichnet und nicht ausgedrückt werden und sich auf das denken konzentrieren fähigkeit großer modelle.
xiao yanghua erwähnte, dass unser aktuelles großes modell „nur intelligenz und keine rationalität“ hat. es erinnert sich nur an mehr fakten, aber das bedeutet nicht, dass es „intelligenter“ ist und seine rationalen fähigkeiten nicht zugenommen haben. synthetische daten sind eine sehr wichtige idee zur verbesserung der rationalen fähigkeiten.
„verwenden sie synthetische daten, die den denkprozess simulieren, um ein großes modell zu trainieren, damit es weiß, wie man über probleme denkt. daher dienen synthetische daten nicht nur dazu, den datenhunger zu lindern, sondern auch die rationalen fähigkeiten des großen modells zu verbessern.“ ."
eine weitere sehr wichtige idee, die xiao yanghua erwähnt, besteht darin, in den privaten bereich vorzudringen. „im privaten bereich, in vertikalen branchen, in tausenden von branchen befinden sich noch mehr qualitativ hochwertige und wertvolle daten, und weiter unten sind es personenbezogene daten. der private bereich und einzelpersonen verfügen also immer noch über viele wertvolle, sehr originelle und wir haben diese daten jedoch noch nicht aktiviert und noch nicht in das große modell eingefügt. dieses wissen ist ebenfalls sehr wichtig sache in der zukunft.“
xiao yanghua sagte, dass sich alle privaten domänendaten in datenbanksystemen befinden. diese datenbanken enthalten eine große menge hochwertiger privater domänendaten und branchendaten in verschiedenen formen. es ist eine wichtige frage, wie man sie in einen großen modelltrainingskorpus umwandelt. wenn sie private domänendaten zum trainieren großer modelle verwenden können, ist es möglich, große modelle in branchenexperten zu verwandeln.
„heutige große modelle verfügen nur über allgemeinwissen und sind nicht für professionelle aufgaben geeignet. um dies zu erreichen, kann die gute nutzung privater domänendaten der schlüssel sein, daher ist das potenzial der zu erschließenden daten immer noch sehr groß.“
auch xiao yanghua freute sich auf „personenbezogene daten“. er wies darauf hin, dass die verwendung personenbezogener daten zum trainieren großer modelle gerade erst begonnen habe. er glaubt, dass der nächste schritt darin bestehen muss, personenbezogene daten mit großen modellen zu kombinieren. es gibt jedoch noch großes potenzial, personenbezogene daten mit großen modellen zu kombinieren und sie in „personalisierte große modelle“ umzuwandeln es gibt noch großes potenzial. es liegt noch ein weiter weg vor uns.
red star news-reporter wang tian
herausgeber deng lingyao
(laden sie red star news herunter und reichen sie ihre berichte ein, um preise zu gewinnen!)
bericht/feedback