소식

이 대형 모델은 나의 독서 장애를 정말 치료해주었습니다.

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

머신하트 오리지널

저자: 장첸

올해 3월, 엔비디아 CEO 젠슨 황(Jensen Huang)은 아주 특별한 행사를 열었습니다. 그는 획기적인 논문 "Attention Is All You Need"의 저자들을 GTC에 초대하여 생성 AI의 향후 개발 방향에 대해 이야기했습니다.

"오늘 우리 분야에서 즐기는 모든 것은 그 순간으로 거슬러 올라갑니다. 당신은 세상을 바꿨습니다..." Huang Jenxun이 현장에서 말했습니다.



AI와 같은 과학 연구 중심 산업의 경우, 세상을 바꿀 다음 기회가 특정 논문에 숨겨져 있을 수도 있습니다.

그러므로,우리는 이 분야에서 특이한 현상을 목격했습니다. 기술적 배경이 아닌 일부 CEO들도 의사 결정의 시행착오 비용을 줄이기 위해 늦게까지 논문을 읽기 시작했습니다.

이것이 CEO에게 해당된다면 해당 분야의 다른 실무자는 말할 것도 없습니다. 얼마 전부터 OpenAI, Google, Meta가 큰 움직임을 보이고 있으며, 일부 스타트업에서도 계속해서 새로운 모델과 방법을 출시하고 있으며, 많은 실무자들이 다루어야 할 논문이 너무 많다고 느낄 것이라고 생각합니다.

요약하기 위해 AI에 논문을 제공하는 것은 오늘날 일반적인 읽기 방법이지만, 많은 AI 요약에는 혁신과 한계에 대한 명확한 수준과 자세한 설명이 부족합니다. 게다가 일부 주요 모델 아키텍처 다이어그램과 실험 결과 다이어그램은 직접 논문에서 찾아야 하며 실제 절약되는 시간은 매우 제한적입니다.

텐센트에서 "위안바오” 최신 업데이트에서 우리는 이러한 문제에 대한 해결책을 보았습니다. 그들의 새로운 "심층 읽기 모드"지원하다길고 집중적인 독서모듈식, 그림 분석 출력 기능, 논문을 읽는 데 매우 적합합니다.

이 새로운 기능의 효과를 검증하기 위해 머신하트는 직접 실제 테스트를 진행했습니다.

논문의 '정독', 본질은 어디에 있는가?

AI를 사용하여 논문을 읽는 것은 어떤가요? 여러 번 그렇습니다. PDF를 던지면 요약 + 여러 요약이 반환됩니다(때로는 10개까지 높을 수 있음). 이 정보는 실제로 도움이 되지만, 어떤 것이 하이라이트인지, 어떤 것이 이 논문에서 해결되고 어떤 것이 해결되지 않는지, 어떤 핵심 문제가 살펴볼 가치가 있는지 구별하기 어려울 때가 있습니다.

실제 테스트에서 "Yuanbao"는 일련의 모듈식 및 구조화된 정보를 제공하여 이러한 문제를 해결하는 것으로 나타났습니다.

우리가 테스트한 SIGGRAPH 논문을 예로 들어보겠습니다. 종이를 직접 던져보면, 그것이 반환하는 요약은 다른 AI와 크게 다르지 않습니다. 그러나 인내심을 갖고 아래로 스크롤하면 "문서를 자세히 읽기" 버튼이 표시됩니다. 이는 논문을 집중적으로 읽을 수 있는 "원클릭" 스위치입니다.



기존의 논문 요약 인터페이스와 다르게,페이지를 집중적으로 읽으면 종이가 여러 층으로 나누어집니다., 연구 배경, 연구 방법, 실험 설계, 결과 분석, 전반적인 결론이 각각 하나의 모듈로 구성되어 있어 머신하트에서 흔히 소개하는 논문의 레이아웃과 유사합니다. 이들 모두는 왼쪽의 개요를 통해 빠르게 이동할 수 있습니다.



각 모듈에는 몇 개의 단어만 포함되어 있지만 이러한 단어는 실제로 매우 유익합니다. 예를 들어 연구 배경 모듈에서 "연구 어려움" 문단은 단 세 개의 짧은 문장으로 네 가지 어려움을 설명하고, "관련 연구"는 2장의 "관련 연구"를 고도로 압축한 버전입니다. 한 문단에서는 설명합니다. 이 분야의 네 가지 어려움이 명확하게 소개되어 있습니다. 따라서 이 모듈을 읽고 나면 우리는 논문이 어떤 문제를 연구하고 있는지, 우리가 직면하고 있는 연구 현황은 어떤 것인지 기본적으로 이해할 수 있다.

이러한 기존의 구조화된 정보 외에도 Yuanbao의 집중 읽기에는 눈길을 끄는 디자인도 있습니다.논문의 강점과 약점을 나열합니다., 연구자들이 이 논문에서 무엇을 배울 수 있는지, 어떤 문제를 계속 연구할 가치가 있는지 빠르게 이해할 수 있도록 하기 위함입니다.





이 기능이 왜 그렇게 중요한가요? 대만 칭화대학교 펑밍후이 교수는 논문 읽기에 관한 글에서 논문은 교과서와 다르다고 썼는데, 교과서는 남이 정리하고 정리한 체계적인 지식을 제공하는 반면, 논문은 정리되지 않은 지식을 독자가 스스로 검색하고 정리하도록 요구한다. 지식을 필터링하고 정리합니다. 안에,기존 연구의 강점과 약점을 분석하는 능력은 특히 중요합니다. 이는 비판적 사고의 핵심 부분이자 학술 연구에서 자신을 향상시키는 중요한 방법입니다.. Yuanbao는 논문의 장점과 단점을 신속하게 분석하고 요약함으로써 연구자가 심사 및 사전 이해에 많은 시간을 절약할 수 있도록 하여 연구와 직접적으로 관련된 논문에 더욱 빠르게 집중할 수 있도록 해줍니다.

그러나 이전 정보가 너무 지루하다고 생각되면 마지막 정보로 바로 이동할 수도 있습니다."주요 질문과 답변" 모듈. 다음은 논문의 가치를 빠르게 이해하고, 원문을 읽는 데 시간을 투자할 가치가 있는지 판단하는 데 도움이 되는 가장 중요한 질문 중 일부입니다. 물론, 기존의 많은 AI 비서들도 답변 말미에 몇 가지 핵심 질문을 제시할 예정인데, 클릭 한 번으로 답변을 얻을 수 있지만, 초보자이거나 학제간 배경이 있는 독자라면 쉽지 않을 수도 있다. 어떤 질문이 더 중요한지 판단할 수 있습니다. Yuanbao를 직접적으로 표현하는 것이 더 직관적으로 느껴집니다.



원본 사진은 원본 번호입니다. AI가 논문을 읽을 때 사진을 추가할 수 없다고 누가 말했습니까?

많은 사람들은 논문을 읽을 때 사진을 보면서 논문 설명을 읽는 습관을 갖고 있습니다. 이렇게 이해하는 것이 더 빠르고 쉽습니다. 하지만 현재 시중에 나와 있는 대부분의 AI 애플리케이션은 텍스트 결과를 반환합니다. 사진을 보려면 원본 텍스트에서 찾아야 합니다.

테스트에서 우리는 다음을 발견했습니다.Yuanbao는 종이 그림을 직접 오려서 문단의 해당 위치에 배치할 수 있는 몇 안 되는 AI 중 하나입니다.. 예를 들어, 모듈이 아키텍처에 관해 이야기하는 경우 해당 아키텍처 다이어그램을 배치합니다.





특정 모듈의 실험 결과에 대해 이야기하면 해당 차트가 표시됩니다.





우리 모두 알고 있듯이 대형 모델의 착시 문제를 완전히 해결할 수 있는 방법은 없습니다. 따라서 이러한 원본 수치 제시는 실제로 독자가 모델의 답변을 언제든지 쉽게 확인할 수 있고 참고용으로 사용하는 것이 더 안전한 출력 방법이므로 더욱 신뢰할 수 있습니다.

또한 블로그나 기타 외부 출력을 작성해야 하는 경우 Yuanbao가 차트를 그리는 데 도움을 줄 수 있으며 데이터를 찾을 위치를 알려줄 필요가 없다는 사실도 발견했습니다. 종이 자체에 데이터를 넣고 추출해서 그려보세요. 이 기능은 집중독서 페이지 오른쪽에 있는 '질문하기' 버튼을 통해 호출할 수 있습니다.



언제 어디서나 읽을 수 있습니다. 논문을 읽는 데 장애물이 많다고 누가 말했습니까?

구조화된 정보와 그림 및 텍스트 출력 외에도 Yuanbao에는 실제로 논문 읽기를 더욱 편리하게 할 수 있는 몇 가지 매우 실용적인 작은 기능이 있다는 사실도 테스트 중에 발견했습니다.

첫 번째는단어 번역 및 검색, 이는 "원본 텍스트" 읽기 인터페이스의 두 가지 실용적인 작은 기능입니다. 십자말 번역은 영어가 서툰 독자들에게 언제 어디서나 언어 장벽을 해소하는 데 도움이 되며, 십자말 검색은 한 단계 더 발전하여 검색이 가능하도록 Yuanbao의 검색 기능을 플러그인으로 만들었습니다. 언제든지 관련 정보를 확인하세요. 더욱이 Yuanbao가 제공한 설명은 간단한 요약일 뿐만 아니라 모듈식 확장이기도 합니다. 모든 세부 사항이 실제로 "구조화"되어 있고 "유익"합니다.





이어서"오프라인 읽기". 이 기능의 실용성은 단편적인 시간을 낭비하지 않고 "비행기 모드"에서 집중 독서 내용과 원문을 검토할 수 있다는 것입니다. 이를 통해 항공사는 고속철도와의 경쟁에서 어느 정도 입지를 되찾을 수 있습니다. 어쩌면 연구자들의 다음 영감은 비행기에서 집중적으로 읽은 내용을 검토하면서 나올 수도 있습니다.



마지막 작은 기능은 "계산자". 얼마 전 AI는 9.9와 9.11 중 어느 것이 더 큰지 구분할 수 없어 많은 논의를 불러일으켰습니다. Yuanbao에는 정확한 계산을 기반으로 답변이 생성되도록 보장하는 통합 계산기 기능이 있음을 발견했습니다. 이 기능은 실험 데이터를 읽을 때 매우 유용합니다.

긴 글을 집중적으로 읽은 뒤에는 전문가의 지도가 있었다.

공식 정보에 따르면 이번 Tencent Yuanbao 업그레이드는 '긴 텍스트 집중 읽기'에 중점을 두고 있으며 기본적으로 최대 500,000단어의 입력을 지원할 수 있습니다. 우리가 시험에 사용한 논문은 이 길이에 미치지 못하고, 우리가 매일 접하는 대부분의 논문도 이 길이에 미치지 못합니다. 따라서 Yuanbao를 사용하여 논문을 집중적으로 읽을 때 대부분의 경우 컨텍스트 창으로 충분합니다. 모듈성, 그래픽 및 텍스트 출력, 단어 검색 및 번역과 같은 작은 기능도 논문 읽기를 정말 편리하고 효율적으로 만들어 "실용성"에 한 걸음 더 다가갑니다.

이러한 진화는 그 뒤에 있는 모델, 즉 Tencent의 Hunyuan 대형 모델의 업그레이드와 분리될 수 없습니다. 전문 분야에서 모델의 전문성과 실용성을 높이기 위해 Tencent Hunyuan 팀이 보도했습니다.해당 분야의 전문가를 특별히 초빙하여 각 전문 분야의 핵심 기술을 설명하고 전문적인 질문에 답하기 위한 표준을 수립합니다., 모델이 진정한 도메인 전문가 역할을 할 수 있도록 해줍니다. 그래서 그것을 사용한 후에 우리는 Yuanbao가 독자들에게 어떤 정보가 필요한지, 그 정보가 어떻게 제시되어야 하는지를 알고 있다고 느낍니다.

이 새로운 기능은 논문 외에도 집중 독서에도 사용할 수 있습니다.재무 보고서, 연구 보고서길이가 같은 텍스트. 이러한 시나리오에서는 다양한 차원의 정보를 분류하고 보고서 내용을 기반으로 DuPont 분석 차트와 같은 전문적인 차트를 생성할 수 있으므로 이러한 문서를 이해하지 못하는 사람들도 회사의 재무 상태 및 기타 정보를 이해할 수 있습니다.



그러나 논문 읽기 시나리오의 경우 Yuanbao는 원문 읽기 인터페이스에서 완전한 원문-번역 비교가 부족하고 때로는 공식 식별이 충분히 정확하지 않은 등 여전히 개선의 여지가 있습니다. 또한 Yuanbao가 향후 업데이트에서 이러한 문제를 개선할 수 있기를 바랍니다.

하지만 출시된 지 두 달 남짓한 애플리케이션인 만큼, Tencent Yuanbao의 성과는 이미 기대치를 뛰어넘었습니다. 진화의 궤적을 통해 우리는 대형 모델이 얼마나 새로운 생산성을 단계적으로 구현하는지 확인할 수 있습니다. 우리는 또한 이 앱이 우리에게 더 많은 놀라움을 가져다주기를 기대합니다.