minhas informações de contato
correspondência[email protected]
2024-10-04
한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina
novo relatório de sabedoria
quando o modelo de grande linguagem foi lançado pela primeira vez, ele avançou com sucesso em suas tarefas, versatilidade de domínio e recursos de geração de texto suave. no entanto, a tecnologia da época só podia ser aplicada a algumas tarefas relativamente simples.
com o surgimento de tecnologias imediatas, como a cadeia de pensamento, especialmente o modelo o1 recém-lançado da openai, é o primeiro a adotar a tecnologia da cadeia de pensamento internalizada da estratégia de aprendizagem por reforço, que melhora a capacidade de grandes modelos para resolver problemas complexos e raciocínio para um nível totalmente novo.
embora o modelo o1 tenha demonstrado capacidades surpreendentemente fortes em várias tarefas linguísticas gerais, o seu desempenho em áreas profissionais como a medicina ainda é desconhecido.
uma equipe chinesa da universidade da califórnia, santa cruz, da universidade de edimburgo e dos institutos nacionais de saúde divulgou em conjunto um relatório, conduzindo uma exploração abrangente de o1 em diferentes cenários médicos e examinando o desempenho do modelo na compreensão e raciocínio . ) e capacidades de multilinguismo.
a avaliação abrange seis tarefas usando dados de 37 conjuntos de dados médicos, incluindo duas tarefas difíceis de perguntas e respostas baseadas no new england journal of medicine (nejm) e no the lancet professional medical test.
em comparação com benchmarks padrão de resposta a perguntas médicas, como o medqa, esses conjuntos de dados são mais relevantes clinicamente e podem ser aplicados de forma mais eficaz em cenários clínicos do mundo real.
a análise do modelo o1 mostra que o aprimoramento da capacidade de raciocínio dos llms é mais propício à compreensão do modelo de várias instruções médicas e também pode melhorar a capacidade do modelo de raciocinar em cenários clínicos complexos.
é importante notar que a precisão do modelo o1 em 19 conjuntos de dados e dois cenários complexos de perguntas e respostas excedeu o gpt-4 anterior em 6,2% e 6,6% em média.
ao mesmo tempo, os investigadores encontraram várias falhas nas capacidades do modelo e nos protocolos de avaliação existentes, incluindo alucinações, capacidades multilingues inconsistentes e métricas de avaliação inconsistentes.
avaliação abrangente das capacidades médicas de grandes modelos
em termos de melhorar a capacidade de raciocínio do modelo, os prompts da cadeia de pensamento (cot) são uma estratégia de prompt comumente usada, que usa os padrões de raciocínio dentro do modelo para aumentar a capacidade de resolver tarefas complexas.
o modelo o1 vai um passo além, incorporando o processo cot no treinamento do modelo, integrando aprendizagem por reforço e demonstrando um forte desempenho de raciocínio. no entanto, o modelo o1 ainda não foi avaliado com dados em áreas profissionais e seu desempenho em tarefas específicas ainda é; desconhecido.
os benchmarks de llm existentes na área médica geralmente avaliam apenas capacidades específicas do modelo, como conhecimento e raciocínio, segurança e multilíngue. os testes são relativamente isolados uns dos outros e não podem avaliar de forma abrangente modelos avançados como o1.
para garantir uma avaliação abrangente, os investigadores recolheram uma variedade de tarefas médicas e conjuntos de dados que abrangem os aspectos acima mencionados e exploraram três estratégias de estímulo no processo, incluindo:
1. prompts diretos para orientar grandes modelos de linguagem para resolver problemas diretamente
2. cadeia de pensamento, que exige que o modelo pense passo a passo antes de gerar a resposta final.
3. algumas dicas rápidas fornecem ao modelo vários exemplos para aprender o mapeamento de entrada-saída em tempo real.
por fim, utilize uma métrica apropriada para medir a diferença entre as respostas geradas e as respostas reais.
foco e tarefas
os pesquisadores utilizaram 35 conjuntos de dados existentes e criaram 2 conjuntos de dados adicionais com maior dificuldade de avaliação e, em seguida, classificaram todos os 37 conjuntos de dados em 3 aspectos e 6 tarefas para avaliação e análise mais claras para entender o desempenho de um modelo em um domínio específico.
entendimento,refere-se à capacidade do modelo de usar seu conhecimento médico interno para compreender conceitos médicos.
por exemplo, em tarefas de reconhecimento de conceitos, os modelos precisam extrair ou elaborar conceitos médicos de artigos ou relatórios diagnósticos na sumarização de textos, os modelos precisam compreender conceitos em textos complexos para gerar resumos concisos;
raciocínio,teste a capacidade do modelo de pensar logicamente através de várias etapas para chegar a conclusões.
nas tarefas de perguntas e respostas, o modelo precisa seguir instruções imediatas para raciocinar com base nas informações médicas fornecidas na pergunta e selecionar a resposta correta entre várias opções.
além de conjuntos de dados comuns de perguntas e respostas, os pesquisadores também coletaram questões clínicas do mundo real do the lancet, do new england journal of medicine (nejm) e do medbullets para avaliar melhor a utilidade clínica dos llms.
nas tarefas de recomendação clínica, os modelos precisam fornecer recomendações de tratamento ou decisões de diagnóstico com base nas informações do paciente. nos conjuntos de dados ai hospital e agentclinic, o modelo precisa atuar como um agente médico; no conjunto de dados medcalc-bench, o modelo precisa realizar raciocínio matemático e calcular respostas;
multilinguismo, os idiomas para inserir instruções e produzir respostas são diferentes.
o conjunto de dados xmedbench exige que os llms respondam a perguntas médicas em seis idiomas, incluindo chinês, árabe, hindi, espanhol, chinês e inglês no conjunto de dados do ai hospital, o modelo precisa usar chinês para perguntas e respostas;
indicadores de avaliação
precisão, uma medida direta da porcentagem de respostas geradas pelo modelo que correspondem exatamente à resposta verdadeira.
usado principalmente quando a resposta real é uma palavra ou frase, incluindo conjuntos de dados de perguntas de múltipla escolha, conjuntos de dados medcalcbench e conselhos clínicos e conjuntos de dados de identificação de conceito.
a pontuação f1, a média harmônica de precisão e recuperação, é usada em conjuntos de dados onde o modelo precisa selecionar várias respostas corretas.
azul e rouge, uma métrica de processamento de linguagem natural que mede a semelhança entre respostas geradas e respostas reais, usando bleu-1 e rouge-1 para todas as tarefas de geração de formato livre na avaliação
alignscore, uma métrica que mede a consistência dos fatos de texto gerados, usa alignscore para todas as tarefas de geração de formato não especificado para avaliar o grau de ilusão do modelo.
malva, uma métrica que mede a diferença entre a distribuição do texto gerado e do texto escrito por humanos, é usada para todas as tarefas de geração de formato não especificado. o valor da métrica varia de 0 a 100, com valores mais altos indicando maior qualidade do modelo. saída.
resultados experimentais
estratégia imediata
para tarefas de perguntas e respostas de conhecimento, tarefas de agente, tarefas de computação médica e tarefas relacionadas a vários idiomas, use métodos de avaliação direta e imediata;
para outras tarefas do meds-bench, é seguida a estratégia de solicitação de três amostras na configuração de benchmark.
de acordo com a declaração da openai, técnicas comuns de prompts, como chain of thoughts (cot) e exemplos em contexto, não são muito úteis para melhorar o desempenho do o1 porque o modelo já possui um cot implícito integrado.
para testar ainda mais esta afirmação, os pesquisadores adicionaram os efeitos de várias dicas avançadas à avaliação, incluindo cot, autoconsistência e reflexo.
além de selecionar os modelos gpt-3.5, gpt-4 e o1 para avaliação, os pesquisadores também selecionaram dois modelos de código aberto: um é um modelo de linguagem grande meditron-70b treinado com dados de centros médicos e o mais recente e poderoso modelo de código aberto modelo modelo de linguagem grande llama3-8b
principais resultados
as capacidades do o1 em compreensão clínica foram aprimoradas
quando o modelo o1 foi lançado, a openai enfatizou principalmente suamelhorias significativas no conhecimento e nas habilidades de raciocínio, como resolução de problemas matemáticos e geração de códigos, também podem ser observadas a partir de resultados experimentais, e essa habilidade também pode ser transferida para a compreensão de conhecimentos clínicos específicos.
pode-se observar que o1 supera outros modelos em termos de compreensão da maioria das tarefas clínicas. por exemplo, o1 supera gpt-4 e gpt-3.5 em média em 5 conjuntos de dados de reconhecimento de conceito usando f1 como métrica. com uma melhoria média de 24,5% no conjunto de dados bc4chem comumente usado.
na tarefa resumida, o1 melhorou sua pontuação rouge-1 em 2,4% e 3,7%, respectivamente, em comparação com gpt-4 e gpt-3.5, comprovando sua capacidade aprimorada na compreensão clínica do mundo real. os resultados também confirmaram o papel de grandes modelos de linguagem. em avanços nas capacidades gerais de processamento de linguagem natural podem efetivamente se traduzir em melhor compreensão do modelo na área médica.
a poderosa capacidade de raciocínio do modelo o1 em cenários de diagnóstico clínico
em tarefas relacionadas ao raciocínio, o modelo o1 também demonstrou suas vantagens em situações de diagnóstico do mundo real.
nas tarefas de resposta a perguntas recém-construídas e desafiadoras nejmqa e lancetqa, a precisão média de o1 nos respectivos conjuntos de dados é melhorada em 8,9% e 27,1% em comparação com gpt-4 (79,6%) e gpt-3,5 (61,5%), respectivamente.
outra melhoria digna de nota nas capacidades de raciocínio matemático do o1 é que ele melhora a linha de base do medcalc-bench para 34,9%, o que é significativamente 9,4% superior ao gpt-4
em cenários de raciocínio mais complexos envolvendo múltiplas rodadas de diálogo e simulação de ambiente, o1 supera gpt-4 e gpt-3.5 no benchmark agentclinic, ganhando pelo menos 15,5% e 10% nos subconjuntos medqa e nejm, respectivamente. , com pontuações de 45,5% e 20,0% respectivamente.
além de maior precisão, as respostas do o1 também são mais concisas e diretas, enquanto o gpt-4 gera explicações alucinatórias próximas às respostas erradas.
os pesquisadores acreditam que as melhorias do conhecimento e do raciocínio do o1 são atribuídas principalmente ao uso de dados aprimorados e técnicas subjacentes (como dados cot e técnicas de aprendizagem por reforço) durante o processo de treinamento.
com base nos resultados otimistas acima, os pesquisadores afirmaram com entusiasmo no artigo: com o modelo o1, estamos cada vez mais perto de um médico de ia totalmente automático.