O GraphRAG de código aberto da Microsoft explode em popularidade. A IA generativa entrou na era dos gráficos de conhecimento?

2024-07-15

Relatório do coração da máquina

Editor: PandaW

O gráfico de conhecimento nunca se retira do meio ambiente!

O LLM é muito poderoso, mas também apresenta algumas deficiências óbvias, como problemas de alucinação, má interpretabilidade, incapacidade de compreender o foco do problema, questões de privacidade e segurança, etc. A geração aumentada por recuperação (RAG) pode melhorar significativamente a qualidade da geração e a utilidade dos resultados do LLM.

No início deste mês, a Microsoft lançou o GraphRAG, a mais poderosa solução de base de conhecimento RAG de código aberto. O projeto tornou-se popular imediatamente após entrar no ar e agora o número de estrelas atingiu 10,5 mil.

Endereço do projeto: https://github.com/microsoft/graphrag
Documentação oficial: https://microsoft.github.io/graphrag/

Algumas pessoas dizem que é mais poderoso que o RAG comum:

GraphRAG usa LLM para gerar gráficos de conhecimento, que podem melhorar significativamente o desempenho de perguntas e respostas ao realizar análises de documentos em informações complexas, especialmente ao lidar com dados privados.

Resultados de comparação entre GraphRAG e RAG tradicional

Hoje, o RAG é uma técnica que usa informações do mundo real para melhorar a produção do LLM e é uma parte importante da maioria das ferramentas baseadas no LLM. De modo geral, o RAG usa similaridade vetorial como uma pesquisa, chamada Baseline RAG. Mas o Baseline RAG não funciona perfeitamente em algumas situações. Por exemplo:

O Baseline RAG luta para conectar os pontos. Isso ocorre quando responder a uma pergunta exige a passagem de diferentes informações por meio de atributos compartilhados para fornecer novos insights combinados;
O Baseline RAG tem um desempenho insatisfatório quando solicitado a compreender de forma abrangente conceitos semânticos resumidos em grandes conjuntos de dados ou mesmo em um único documento grande.

GraphRAG proposto pela Microsoft usa LLM para criar um gráfico de conhecimento baseado na biblioteca de texto de entrada. Este gráfico combina resumos da comunidade e a saída do aprendizado de máquina gráfica para aprimorar dicas no momento da consulta. GraphRAG mostra melhorias significativas na resposta a ambos os tipos de perguntas, demonstrando desempenho superior em relação aos métodos anteriores em conjuntos de dados privados.

No entanto, à medida que todos adquiriram uma compreensão mais profunda do GraphRAG, descobriram que seus princípios e conteúdo eram realmente difíceis de entender.

Recentemente, Philip Rathle, CTO da Neo4j Company, publicou um artigo no blog intitulado "Manifesto GraphRAG: Adicionando Conhecimento à IA Generativa". Rathle apresentou em detalhes os princípios do GraphRAG e a diferença do RAG tradicional em uma linguagem fácil de entender. GraphRAG e muito mais.

Ele disse: “Sua próxima aplicação generativa de IA provavelmente usará um gráfico de conhecimento”.

CTO da Neo4j Philip Rathle

Leia este artigo abaixo.

Estamos percebendo o seguinte: para fazer algo realmente significativo com IA generativa, você não pode simplesmente confiar em LLMs autorregressivos para tomar decisões por você.

Eu sei o que você está pensando: “Use RAG”. Ou faça o ajuste fino ou espere pelo GPT-5.

Sim. Técnicas como geração de aumento de recuperação baseada em vetor (RAG) e ajuste fino podem ajudá-lo. E eles resolvem certos casos de uso bem o suficiente. Mas há um tipo de caso de uso que irá paralisar todas essas tecnologias.

Para muitos problemas, a solução para o RAG baseado em vetores (e o ajuste fino) é essencialmente aumentar a probabilidade da resposta correta. Mas nenhuma das técnicas fornece um nível de certeza sobre a resposta correta. Muitas vezes falta contexto e dificultam a conexão com algo que você já conhece. Além disso, essas ferramentas não fornecem pistas sobre o motivo pelo qual uma decisão específica foi tomada.

Voltemos nossa atenção para 2012, quando o Google lançou seu mecanismo de busca de segunda geração e publicou uma postagem icônica no blog “Apresentando o Knowledge Graph: coisas, não strings”. Eles descobriram que se, além de realizar vários processamentos de strings, usassem um gráfico de conhecimento para organizar todas as coisas representadas como strings em uma página da web, isso poderia levar a uma enorme melhoria na pesquisa.

Agora, um padrão semelhante está surgindo no campo da IA generativa. Muitos projetos generativos de IA chegam a um impasse, onde a qualidade de seus resultados é limitada pelo fato de que a solução lida com strings, não com coisas.

Avançando até hoje, engenheiros de IA de ponta e pesquisadores acadêmicos redescobriram o que o Google já descobriu: o segredo para quebrar esse gargalo é o gráfico de conhecimento. Em outras palavras, é introduzir conhecimento sobre as coisas na tecnologia de texto baseada em estatísticas. O funcionamento é semelhante a outros RAGs, exceto que além da indexação vetorial, também chama o gráfico de conhecimento. Ou seja: GraphRAG! (GraphRAG = Gráfico de conhecimento + RAG)

O objetivo deste artigo é fornecer uma introdução abrangente e compreensível ao GraphRAG. A pesquisa mostra que construir seus dados em um gráfico de conhecimento e usá-los por meio do RAG pode trazer várias vantagens poderosas. Há muitas pesquisas provando que o GraphRAG pode responder melhor à maioria ou a todas as perguntas que você faz ao LLM do que o RAG usando apenas vetores comuns.

Esta vantagem por si só é suficiente para promover enormemente a adoção do GraphRAG.

Mas não termina aí; como os dados ficam visíveis durante a construção de um aplicativo, ele também é mais simples de desenvolver.

Uma terceira vantagem do GraphRAG é que tanto humanos quanto máquinas podem compreender bem os gráficos e realizar inferências com base neles. Como resultado, construir aplicativos usando GraphRAG é mais simples e produz melhores resultados, ao mesmo tempo que é mais fácil de interpretar e auditar (crítico para muitos setores).

Acredito que o GraphRAG substituirá o RAG somente vetorial como a arquitetura RAG padrão para a maioria dos casos de uso. Este artigo explica o porquê.

O que é um mapa?

Primeiro temos que esclarecer o que é um gráfico.

Gráfico, também conhecido como gráfico, é frequentemente traduzido como “gráfico”, mas por isso é facilmente confundido com conceitos como imagem e figura. Para facilitar a distinção, este artigo utiliza apenas o método de tradução "图图".

O gráfico provavelmente será assim:

Exemplo de mapa

Embora esta imagem seja frequentemente usada como exemplo de gráfico de conhecimento, sua fonte e autor não são mais conhecidos.

ou isto:

Mapa de relacionamento dos personagens de "Game of Thrones", de William Lyon

ou isto:

Mapa do metrô de Londres. Curiosidade: a Transport for London implantou recentemente um aplicativo de gêmeo digital baseado em gráficos para melhorar as capacidades de resposta a incidentes e reduzir o congestionamento.

Em outras palavras, um mapa não é um diagrama.

Aqui não nos deteremos muito em questões de definição, presumindo que você já entenda o que é um mapa.

Se você entender as imagens acima, provavelmente poderá ver como os dados subjacentes do gráfico de conhecimento (armazenados no banco de dados gráfico) podem ser consultados e usados como parte de um fluxo de trabalho RAG. Esse é o GraphRAG.

Duas formas de apresentação do conhecimento: vetores e gráficos

O núcleo de um RAG típico é a pesquisa vetorial, que consiste em encontrar e retornar textos conceitualmente semelhantes de materiais escritos candidatos com base em blocos de texto de entrada. Esse tipo de automação funciona muito bem e até pesquisas básicas são úteis.

Mas toda vez que você realiza uma pesquisa, pode não ter pensado no que é um vetor ou como o cálculo de similaridade é implementado. A seguir, vamos dar uma olhada na Apple. Apresenta diferentes formas da perspectiva humana, perspectiva vetorial e perspectiva gráfica:

Apple da perspectiva humana, perspectiva vetorial e perspectiva do mapa

Para os humanos, a representação de uma maçã é complexa e multidimensional, e as suas características não podem ser totalmente descritas no papel. Aqui podemos imaginar poeticamente que esta foto vermelha pode representar uma maçã perceptiva e conceitualmente.

A representação vetorial desta maçã é um array. A magia dos vetores é que cada um deles captura a essência do texto correspondente em forma codificada. Mas no contexto do RAG, os vetores só são necessários quando você precisa determinar o quão semelhante um trecho de texto é a outro trecho de texto. Para fazer isso, basta realizar um cálculo de similaridade e verificar a correspondência. Mas se você quiser entender o significado dentro de um vetor, entender o que está representado no texto e obter insights sobre sua relação com um contexto mais amplo, então usar a representação vetorial não resolverá o problema.

Em contrapartida, os gráficos de conhecimento representam o mundo de forma declarativa - na terminologia do campo da IA, ou seja, simbólica. Portanto, tanto humanos quanto máquinas podem compreender o gráfico de conhecimento e realizar raciocínios baseados nele. Isto é importante e será mencionado mais adiante.

Além disso, você pode consultar, visualizar, anotar, modificar e ampliar o gráfico de conhecimento. Um gráfico de conhecimento é um modelo mundial que pode representar o mundo em sua área de trabalho atual.

GráficoRAG e RAG

Os dois não estão em competição. Para RAG, tanto consultas vetoriais quanto consultas gráficas são úteis. Como destaca Jerry Liu, fundador do LlamaIndex: Ao pensar no GraphRAG, é útil incluir vetores. Isso é diferente de "RAG somente vetorial" - baseado inteiramente na semelhança entre incorporações de texto.

Fundamentalmente falando, GraphRAG é uma espécie de RAG, exceto que seu caminho de busca inclui o gráfico de conhecimento. Como você verá abaixo, o esquema central do GraphRAG é muito simples. Sua arquitetura é a mesma do RAG usando vetores, mas inclui uma camada de gráfico de conhecimento.

Modo GraphRAG

Um padrão comum para GraphRAG

Como você pode ver, uma consulta gráfica foi acionada na imagem acima. Opcionalmente, pode incluir um componente de similaridade vetorial. Você pode optar por armazenar o gráfico e os vetores em dois bancos de dados diferentes ou usar um banco de dados de gráficos, como o Neo4j, que suporta pesquisa vetorial.

Um padrão comum para usar GraphRAG é fornecido abaixo:

1. Realize uma pesquisa vetorial ou por palavra-chave para encontrar um conjunto de nós iniciais;

2. Percorra o gráfico e traga informações sobre os nós relevantes;

3. (Opcional) Use algoritmos de classificação baseados em gráficos, como PageRank, para reclassificar documentos

Diferentes casos de uso levarão a diferentes padrões de uso. Como todas as áreas de pesquisa no campo atual de IA, o GraphRAG também é um campo rico em pesquisa, com novas descobertas surgindo a cada semana.

Ciclo de vida do GraphRAG

A IA generativa usando GraphRAG também segue o padrão de qualquer outro aplicativo RAG. Há uma etapa de “criação de gráfico” no início:

Ciclo de vida do GraphRAG

Criar um gráfico é semelhante a agrupar um documento e carregá-lo em um banco de dados vetorial. Os avanços nas ferramentas tornaram a criação de mapas bastante fácil. Aqui estão três boas notícias:

1. Os mapas são muito iterativos - você pode começar com um "mapa mínimo viável" e depois expandir com base nele.

2. Depois que os dados são adicionados ao gráfico de conhecimento, eles podem ser facilmente evoluídos. Você pode adicionar mais tipos de dados para obter e aproveitar os efeitos da rede de dados. Você também pode melhorar a qualidade dos seus dados para aumentar o valor do seu aplicativo.

3. O campo está a evoluir rapidamente, o que significa que à medida que as ferramentas se tornam mais sofisticadas, a criação de mapas se tornará cada vez mais fácil.

Adicionar as etapas de criação do mapa à imagem anterior resultará em um fluxo de trabalho conforme mostrado abaixo:

Adicionar etapas de criação de mapa

Vamos dar uma olhada nos benefícios que o GraphRAG pode trazer.

Por que usar o GraphRAG?

Comparado com o RAG somente vetorial, as vantagens do GraphRAG são divididas principalmente em três categorias:

1. Maior precisão e respostas mais completas (vantagem de tempo de execução/produção)

2. Depois que o gráfico de conhecimento for criado, será mais fácil construir e manter aplicativos RAG (vantagem no tempo de desenvolvimento)

3. Melhor explicabilidade, rastreabilidade e controle de acesso (vantagens de governança)

Aqui está uma análise detalhada desses benefícios.

1. Mais precisão e respostas mais úteis

A primeira vantagem do GraphRAG (e a mais imediatamente visível) é a maior qualidade das suas respostas. Seja na academia ou na indústria, podemos ver muitas evidências que apoiam esta observação.

Como este exemplo da empresa de catálogo de dados Data.world. No final de 2023, eles divulgaram um relatório de pesquisa mostrando que o GraphRAG poderia melhorar a precisão das respostas do LLM em uma média de 3 vezes em 43 questões de negócios. Este estudo de benchmark fornece evidências de que os gráficos de conhecimento podem melhorar significativamente a precisão das respostas.

O gráfico de conhecimento melhora a precisão da resposta do LLM em 54,2 pontos percentuais, o que é aproximadamente 3 vezes.

A Microsoft também forneceu uma série de evidências, incluindo um blog de pesquisa de fevereiro de 2024 "GraphRAG: Unlocking LLM Discovery on Narrative Private Data" e um artigo de pesquisa relacionado "From Local to Global: A Graph RAG Approach to Query-Focused Summarization" 》E software: https://github.com/microsoft/graphrag (o GraphRAG mencionado no início acima).

Entre eles, observaram os dois problemas a seguir com o RAG de linha de base usando vetores:

O RAG da linha de base dificulta a conexão dos pontos. A fim de sintetizar diferentes informações para obter novos insights, diferentes fragmentos de informações precisam ser percorridos através de atributos compartilhados. Neste momento, é difícil para o RAG de linha de base conectar diferentes fragmentos de informações.
O Baseline RAG tem um desempenho ruim quando solicitado a compreender de forma abrangente conceitos semânticos resumidos indutivamente em grandes coleções de dados ou até mesmo em grandes documentos únicos.

A Microsoft descobriu: “Ao usar o gráfico de conhecimento gerado pelo LLM, o GraphRAG pode melhorar significativamente a parte de “recuperação” do RAG, preenchendo conteúdo mais relevante para a janela de contexto, obtendo assim melhores respostas e fontes de evidências. ” Eles também descobriram que, em comparação com outros métodos alternativos, o GraphRAG requer de 26% a 97% menos tokens, portanto, não apenas fornece melhores respostas, mas também tem custo mais baixo e melhor escalabilidade.

Indo um pouco mais fundo na precisão, sabemos que embora seja importante que a resposta esteja correta, ela também precisa ser útil. Descobriu-se que o GraphRAG não apenas torna as respostas mais precisas, mas também as torna mais ricas, mais completas e mais úteis.

O artigo recente do LinkedIn “Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering” é um excelente exemplo do impacto do GraphRAG em seus aplicativos de atendimento ao cliente. GraphRAG melhorou a precisão e a riqueza de suas respostas de atendimento ao cliente, tornando-as mais úteis, e reduziu o tempo médio que sua equipe de atendimento ao cliente leva para resolver cada problema em 28,6%.

O workshop de IA generativa do Neo4j tem um exemplo semelhante. Conforme mostrado abaixo, esta é a resposta obtida pelos métodos "vetor + GraphRAG" e "somente vetor" para um conjunto de registros da SEC:

Comparação dos métodos "somente vetor" e "vetor + GraphRAG"

Observe a diferença entre “descrever as características das empresas que podem ser afetadas pela escassez de lítio” e “listar as empresas específicas que podem ser afetadas”. Se você é um investidor que busca reequilibrar um portfólio em resposta às mudanças do mercado, ou uma empresa que busca realinhar sua cadeia de suprimentos em resposta a um desastre natural, as informações no lado direito do gráfico acima são certamente muito mais importantes do que as informações à esquerda. Aqui, ambas as respostas são precisas. Mas a resposta à direita é claramente mais útil.

O episódio 23 de Going Meta, de Jesus Barrasa, dá outro ótimo exemplo: começar com um mapa de palavras para trabalhar com documentos legais.

Também vemos novos exemplos da academia e da indústria de tempos em tempos. Por exemplo, Charles Borderie, da Lettria, deu um exemplo comparativo dos métodos "somente vetor" e "vetor + GraphRAG"; GraphRAG depende de um fluxo de trabalho de texto para gráfico baseado em LLM para organizar 10.000 artigos financeiros em um gráfico de conhecimento:

Métodos somente de pesquisa versus métodos de pesquisa de gráfico

Pode-se observar que, comparado ao uso do RAG comum, o uso do GraphRAG pode não apenas melhorar a qualidade das respostas, mas também reduzir em um terço o número de tokens em suas respostas.

Vejamos outro exemplo do Writer. Eles publicaram recentemente um relatório de benchmark RAG baseado na estrutura RobustQA, que comparou seu método baseado em GraphRAG com outras ferramentas semelhantes. A pontuação obtida pelo GraphRAG é de 86%, o que é significativamente melhor que outros métodos (variando de 33% a 76%), embora tenha desempenho de latência semelhante ou melhor.

Resultados de avaliação de precisão e tempo de resposta do método RAG

GraphRAG está ajudando uma variedade de aplicações generativas de IA. Os gráficos de conhecimento abrem caminho para tornar os resultados da IA generativa mais precisos e úteis.

2. Melhor compreensão dos dados e iteração mais rápida

Os gráficos de conhecimento são intuitivos, tanto conceitualmente quanto visualmente. Explorar gráficos de conhecimento geralmente leva a novos insights.

Muitos usuários do gráfico de conhecimento compartilharam este resultado inesperado: uma vez que investem na conclusão de seu próprio gráfico de conhecimento, isso pode ajudá-los a construir e depurar seus próprios aplicativos generativos de IA de uma forma inesperada. Parte do motivo é que, se você observar os dados na forma de um gráfico, poderá ver que os dados subjacentes a esses aplicativos apresentam uma imagem de dados vívida.

Os gráficos permitem rastrear respostas, encontrar dados e rastrear a cadeia causal ao longo do caminho.

Vejamos o exemplo acima sobre a escassez de lítio. Se você visualizar seu vetor, obterá algo parecido com a imagem abaixo, mas com mais linhas e colunas.

Visualização vetorial

E se você converter os dados em um gráfico, poderá entendê-los de uma forma que uma representação vetorial não consegue.

A seguir está um exemplo de um webinar recente do LlamaIndex, mostrando como eles usam o relacionamento "MENTIONS" para extrair pedaços de palavras vetorizadas (gráfico de vocabulário) e LLM para extrair um gráfico de entidades (gráfico de domínio) e conectar as duas habilidades:

Extraia mapa de vocabulário e mapa de domínio

(Há também muitos exemplos de uso de ferramentas como Langchain, Haystack e SpringAI.)

Você pode ver a rica estrutura dos dados neste diagrama e imaginar as novas possibilidades de desenvolvimento e depuração que ele permite. Cada dado tem seu próprio valor, e a própria estrutura armazena e transmite significado adicional que você pode usar para tornar seu aplicativo mais inteligente.

Não é apenas visualização. Trata-se também de permitir que suas estruturas de dados transmitam e armazenem significado. Aqui está a reação de um desenvolvedor de uma conhecida empresa fintech, apenas uma semana depois de introduzir gráficos de conhecimento no fluxo de trabalho RAG:

Reação do desenvolvedor ao GraphRAG

A reação desse desenvolvedor é muito consistente com a hipótese do “desenvolvimento orientado a testes”, que consiste em verificar (mas não confiar) se a resposta está correta. Pessoalmente, ficaria horrorizado se me pedissem para dar 100% da minha autonomia a uma IA cuja tomada de decisões é completamente opaca. Mais especificamente, mesmo que você não acredite no apocalipse da IA, você concordará: se não conseguir mapear as palavras ou documentos relacionados à "Apple, Inc." para a empresa "Apple Corps" (que são duas coisas completamente diferentes), certamente será de grande valor. Uma vez que, em última análise, são os dados que orientam as decisões generativas de IA, é sem dúvida mais crítico avaliar e garantir a exatidão dos dados.

3. Governança: explicabilidade, segurança e muito mais

Quanto maior o impacto de uma decisão de IA generativa, mais você precisa convencer as pessoas que são responsáveis, em última instância, caso a decisão dê errado. Isso geralmente envolve auditar cada decisão. Isto requer um registo fiável e repetível de boas decisões. Mas isto não é o suficiente. Ao adotar ou abandonar uma decisão, você também precisa explicar as razões por trás dela.

O próprio LLM não faz isso bem. Sim, você pode consultar a documentação utilizada para chegar a esta decisão. Mas estes documentos não explicam a decisão em si – sem mencionar que o LLM compôs as fontes. Os gráficos de conhecimento estão em outro nível, tornando a lógica de raciocínio da IA generativa mais clara e facilitando a interpretação das entradas.

Vamos continuar com o exemplo acima: Charles, da Lettria, carregou entidades extraídas de 10.000 artigos financeiros em um gráfico de conhecimento e usou um LLM para executar o GraphRAG. Vemos que isso fornece respostas melhores. Vamos dar uma olhada nos dados:

Carregar entidades extraídas de 10.000 artigos financeiros no gráfico de conhecimento

Primeiro, pense nos seus dados como um gráfico. Além disso, podemos navegar e consultar os dados, revisá-los e atualizá-los a qualquer momento. A vantagem da governação é que se torna muito mais simples visualizar e auditar o “modelo mundial” destes dados. O uso de um gráfico torna mais provável que a pessoa responsável compreenda o raciocínio por trás da decisão do que usar uma versão vetorial dos mesmos dados.

Quando se trata de garantir a qualidade, se você puder colocar seus dados em um gráfico de conhecimento, será mais fácil encontrar erros e surpresas e rastreá-los até sua origem. Você também pode obter informações de procedência e confiança no gráfico, que podem então ser utilizadas em cálculos e interpretações. Você simplesmente não pode fazer isso com uma versão somente vetorial dos mesmos dados e, como discutimos anteriormente, os dados vetorizados são difíceis de serem compreendidos por pessoas comuns (e até mesmo não-médias).

Os gráficos de conhecimento também podem melhorar significativamente a segurança e a privacidade.

A segurança e a privacidade muitas vezes não são muito importantes na construção de um protótipo, mas são críticas para que sejam incorporadas a um produto. Em setores regulamentados, como bancário ou de saúde, o acesso aos dados de qualquer funcionário depende do cargo.

Quer se trate de um LLM ou de um banco de dados vetorial, não há uma boa maneira de limitar o escopo do acesso aos dados. Os gráficos de conhecimento podem fornecer uma boa solução, utilizando o controle de permissão para regular o escopo dos bancos de dados que os participantes podem acessar, evitando que vejam dados que não estão autorizados a ver. A seguir está uma política de segurança simples que pode implementar um controle de permissão refinado no gráfico de conhecimento:

Uma estratégia de segurança simples que pode ser implementada em gráficos de conhecimento

Crie um gráfico de conhecimento

O que é necessário para construir um gráfico de conhecimento? O primeiro passo é compreender os dois gráficos mais relevantes para aplicações generativas de IA.

O gráfico de domínio representa o modelo mundial relevante para a aplicação atual. Aqui está um exemplo simples:

Mapa de domínio

Um gráfico lexical é um gráfico da estrutura do documento. O gráfico de vocabulário mais básico consiste em nós compostos por pedaços de palavras:

mapa de vocabulário

As pessoas muitas vezes o estendem para incluir relacionamentos entre pedaços, objetos de documentos (como tabelas), capítulos, parágrafos, números de páginas, nomes ou números de documentos, coleções, fontes, etc. Você também pode combinar mapas de domínio e mapas de vocabulário, conforme mostrado abaixo:

Combine a camada de domínio e a camada de vocabulário

Criar um mapa de vocabulário é muito simples, principalmente apenas análise e fragmentação simples. Quanto ao mapa de domínio, existem diferentes caminhos de criação dependendo da fonte dos dados (de fontes de dados estruturados, fontes de dados não estruturados ou ambos). Felizmente, as ferramentas para criar gráficos de conhecimento a partir de fontes de dados não estruturados estão se desenvolvendo rapidamente.

Por exemplo, o novo Neo4j Knowledge Graph Builder pode criar automaticamente gráficos de conhecimento usando documentos PDF, páginas da web, vídeos do YouTube e artigos da Wikipedia. Todo o processo é tão simples quanto alguns cliques em um botão, e você pode visualizar e consultar mapas de domínio e vocabulário do texto inserido. Esta ferramenta é muito poderosa e interessante e pode reduzir bastante o limite para a criação de gráficos de conhecimento.

Quanto aos dados estruturados (como os dados estruturados que sua empresa armazena sobre clientes, produtos, localizações geográficas, etc.), eles podem ser mapeados diretamente em um gráfico de conhecimento. Por exemplo, para dados estruturados, que são mais comumente armazenados em bancos de dados relacionais, algumas ferramentas padrão podem ser usadas para mapear relacionamentos em gráficos com base em regras comprovadas e confiáveis.

Usar gráfico de conhecimento

Depois de ter um gráfico de conhecimento, você pode criar o GraphRAG. Existem muitas estruturas para escolher, como LlamaIndex Property Graph Index, Langchain integrado Neo4j e versão integrada Haystack. Este campo está se desenvolvendo rapidamente, mas agora o método de programação está se tornando muito simples.

O mesmo se aplica à criação de gráficos. Ferramentas como o Neo4j Importer (que pode importar e mapear dados tabulares em gráficos por meio de uma interface gráfica) e o já mencionado Neo4j Knowledge Graph Builder surgiram agora. A figura abaixo resume as etapas para construir um gráfico de conhecimento.

Crie automaticamente gráficos de conhecimento para IA generativa

O uso de gráficos de conhecimento também pode mapear questões de linguagem humana em consultas de banco de dados de gráficos. A Neo4j lançou uma ferramenta de código aberto, NeoConverse, que ajuda a usar linguagem natural para consultar gráficos de conhecimento: https://neo4j.com/labs/genai-ecosystem/neoconverse/

Embora seja necessário aprender um pouco para começar a usar gráficos, a boa notícia é que, à medida que as ferramentas evoluem, fica mais fácil.

Resumo: GraphRAG é o futuro inevitável do RAG

As habilidades inerentes de computação e linguagem baseadas em palavras do LLM combinadas com RAG baseado em vetores podem levar a resultados muito bons. Para obter bons resultados de forma estável, é necessário ir além do nível das cordas e construir um modelo de mundo acima do modelo de palavras. Da mesma forma, o Google descobriu que, para dominar a pesquisa, era necessário ir além da mera análise de texto e mapear as relações entre as coisas que as strings representam. Estamos começando a ver o mesmo padrão surgindo no mundo da IA. Este modo é GraphRAG.

A curva de desenvolvimento da tecnologia tem a forma de um S: depois de uma tecnologia atingir o seu pico, outra tecnologia promoverá o progresso e superará a anterior. À medida que a IA generativa se desenvolve, os requisitos para aplicações relacionadas também aumentarão - desde respostas de alta qualidade à explicabilidade até ao controlo minucioso das permissões de acesso aos dados, privacidade e segurança, o valor dos gráficos de conhecimento também aumentará.

A evolução da IA generativa

Seu próximo aplicativo generativo de IA provavelmente usará um gráfico de conhecimento.

Link de referência: https://neo4j.com/blog/graphrag-manifesto/

notícias

O GraphRAG de código aberto da Microsoft explode em popularidade. A IA generativa entrou na era dos gráficos de conhecimento?

Introdução

minhas informações de contato