notícias

o que fazer se os humanos ficarem sem dados? xiao yanghua, professor da universidade fudan, propôs duas soluções:

2024-09-07

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

o red star capital bureau informou em 7 de setembro que, na era do big data, o valor dos dados ainda não foi totalmente explorado. quando chega a era da ia, os dados enfrentam o desafio de serem consumidos muito rapidamente, o que os torna sintéticos. a tecnologia de dados é um campo quente. de acordo com um relatório divulgado pela organização de pesquisa epoch ai em junho, a partir de 2026, a quantidade de novos dados gerados por humanos será menor do que a quantidade de novos dados aprendidos por modelos. estima-se que grandes modelos de linguagem ficarão sem recursos humanos. dados até 2028.
os dados determinam o limite superior da inteligência até certo ponto, o que faz com que quanto mais avanços na tecnologia de grandes modelos, mais a tecnologia de dados deve estar "alinhada" com ela.
durante a conferência bund de 2024, xiao yanghua, professor da universidade fudan e diretor do laboratório chave de ciência de dados de xangai, disse em entrevista ao red star capital bureau e outros meios de comunicação que pode haver dois caminhos para resolver o problema de esgotamento de dados no futuro. o primeiro são dados sintéticos e o outro vai para o domínio privado.
xiao yanghua
"muitas pessoas anotaram os quatro livros e os cinco clássicos. o processo de anotação é como o processo de síntese de dados. podemos pensar, correlacionar e integrar continuamente os dados originais para gerar mais dados. estes são dados sintéticos." , os dados sintéticos são uma ideia muito importante. não só para aliviar o problema do esgotamento dos dados, mas também tem um significado muito importante.
“a maior parte dos dados sintetizados são dados do nosso processo de pensamento. por meio de dados sintéticos, é expressa uma grande quantidade de dados implícitos, não registrados, não expressos e focados no pensamento. capacidade de modelos grandes.
xiao yanghua mencionou que nosso grande modelo atual “só tem inteligência e nenhuma racionalidade”. ele apenas se lembra de mais fatos, mas isso não significa que seja mais “inteligente” e sua capacidade racional não aumentou. os dados sintéticos são uma ideia muito importante para melhorar a capacidade racional.
"use dados sintéticos que simulam o processo de pensamento para treinar um grande modelo para que ele possa saber como pensar sobre os problemas. portanto, os dados sintéticos não servem apenas para aliviar a 'fome' de dados, mas também para melhorar a capacidade racional do grande modelo ."
outra ideia muito importante mencionada por xiao yanghua é entrar no domínio privado. "mais dados de alta qualidade e alto valor estão no domínio privado, em indústrias verticais, em milhares de indústrias, e mais abaixo estão os dados pessoais. portanto, o domínio privado e os indivíduos ainda têm muitos dados preciosos, muito originais e dados reais. mas não ativamos esses dados e ainda não os injetamos no modelo grande. o modelo grande ainda não aprendeu esse conhecimento. como usar atributos de domínio privado para estimular o potencial do modelo grande também é muito importante. coisa no futuro.”
xiao yanghua disse que os dados de domínio privado estão todos em sistemas de banco de dados. esses bancos de dados contêm uma grande quantidade de dados de domínio privado e dados da indústria em várias formas. como transformá-los em um grande corpus de treinamento de modelo é uma questão importante. se você puder usar dados de domínio privado para treinar modelos grandes, será possível transformar modelos grandes em especialistas do setor.
“os grandes modelos de hoje possuem apenas conhecimentos gerais e não estão qualificados para tarefas profissionais. para conseguir isso, fazer bom uso dos dados de domínio privado pode ser a chave, portanto o potencial de dados a serem explorados ainda é muito grande.”
xiao yanghua também ansiava por "dados pessoais". ele destacou que o uso de dados pessoais para treinar grandes modelos apenas começou. ele acredita que o próximo passo deve ser combinar dados pessoais com grandes modelos. no futuro, ainda há um grande potencial em como combinar dados pessoais com grandes modelos e transformá-los em “grandes modelos personalizados” para servir os indivíduos. ainda há um grande potencial. ainda há um longo caminho a percorrer.
repórter da red star news, wang tian
editor deng lingyao
(baixe red star news e envie seus relatórios para ganhar prêmios!)
relatório/comentários