소식

스캔하는 방법을 모르는 곳이라도! Alibaba의 다중 모드 모델이 지원하는 세계에서 가장 강력한 수학적 모델을 온라인으로 플레이해 보세요.

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

집은 아오페이 사원(Aofei Temple)에서 유래되었습니다.
Qubits 공개 계정 QbitAI

이제 누구나 가장 강력한 대규모 수학적 모델을 가지고 놀 수 있습니다!

내가 일어났을 때 Alibaba Qianwen Big Model Team은 Qwen2-Math의 데모를 출시했습니다.허그 페이스(Hug Face)는 온라인으로 플레이할 수 있습니다.

놀랍게도 수학공식을 입력하는 것이 번거롭다면,묻고 싶은 질문을 스크린샷으로 찍거나 스캔해서 업로드하면 문제를 해결할 수 있습니다.

꽤 편리합니다.



평가판 인터페이스에는 "이 평가판 인터페이스의 OCR 기능은 Alibaba Qianwen의 대규모 모델 팀 Qwen2-VL에서 지원되며 수학적 추론 기능은 Qwen2-Math에서 지원됩니다."라고 명시되어 있습니다.

Alibaba의 수석 알고리즘 전문가인 Lin Junyang도 트위터 댓글 영역에서 다음과 같이 자세히 설명했습니다.

현재 Qwen2-VL과 Qwen2-Math는 여전히 자체 부품을 담당하고 있습니다.
그러나 가까운 미래에 우리는 다중 모드 기능과 수학적 추론 기능을 하나의 모델로 결합할 것입니다.어서 해봐요.



많은 네티즌들은 이 대화형 모델에 대해 매우 열광하고 있습니다.

조심하세요! 이미지를 사용하여 업로드하고 큰 모델이 문제를 해결할 때까지 기다리세요. 정말 좋아요!



그렇다면 가장 강력한 수학적 모델인 Qwen2-Math를 시작하면 어떤 효과가 있을까요?

효과는 무엇입니까? 지금 바로 플레이해보세요

이제 Qwen2-Math가 5개의 레벨을 통과하고 6명의 장군을 물리칠 시간입니다!

시작하려면 상대적으로 간단한 계산 질문부터 시작하겠습니다.

두 사람의 체험 중 Qwen2-Math는 계산을 동시에 표시하지 않고, 계산이 완료된 후 과정과 결과를 직접 표시한다는 점을 미리 설명하겠습니다.

(그리고 점점 더 많은 사람들이 플레이하기 시작하고 결과 생성 시간이 점차 길어지고 있다고 해야 할까요)

질문 1:"AxA+A=240 계산"에서 A의 값입니다.

Qwen2-Math는 정답 A=14 또는 A=-16을 제공합니다.



두 번째 질문:a의 값이 주어지면 방정식의 결과를 계산하십시오.

Qwen2-Math는 답이 0이라고 계산했는데, 이 역시 맞습니다.



질문 3:(A+3) (A+4) (A+5) = 120, A의 값을 구합니다.

빙고! 답은 1이다.



자, 워밍업은 끝났습니다. Qwen2-Math에 약간의 어려움을 가해 보겠습니다.

그런 다음 (수학적) 대규모 모델 평가에 대해 이미 표준으로 사용되는 사항을 살펴보겠습니다.

9.9와 9.11 중 어느 것이 더 큰가요?



Qwen2-Math는 자신있게 대답합니다.

9.9는 9.11보다 크다!



그럼 더 어렵게 만들어라!

지금까지 GPT-4o만이 올바르게 대답한 질문을 던져보세요.

외계인이 지구에 온 후, 그는 다음 네 가지 중 하나를 완료하도록 선택할 수 있습니다.
1. 자기파괴
2. 두 명의 외계인으로 분할됩니다.
3. 세 명의 외계인으로 분할됩니다.
4. 아무것도 하지 마십시오.
그 후 매일 각 외계인은 서로 독립적으로 선택을 하게 됩니다.
지구에 궁극적으로 외계인이 없을 확률을 찾아보세요.

이 질문에 대해 Qwen2-Math는 답변을 제공하는 데 약 30초가 걸렸습니다. 1.

안타깝게도 정답은 √2 빼기 1 입니다.



주요 플랫폼의 댓글 란을 검색한 결과, 계산 오류 외에도 오답으로 이어질 수 있는 또 다른 가능성이 있다는 사실을 발견했습니다.

Qwen2-VL입니다.주제를 식별할 때 문제가 발생했습니다.

실수는 첫 번째 단계에 있습니다. 이 경우 대형 모델에서 얻은 답은 확실히 정답이 아닙니다.



동시에 린준양 역시 네티즌들의 댓글란에 이렇게 말했다.

우리의 Qwen2-Math아직 기하학 문제를 풀 수 없어요



중국어로 질문도 할 수 있어요

이번 주인공인 Qwen2-Math는 Tongyi Qianwen 오픈소스 대형 언어 모델 Qwen2를 기반으로 개발되었으며 열흘 전 Alibaba Qianwen 대형 모델 팀에서 출시했습니다.

수학 문제를 해결하기 위해 특별히 설계되었으며 경쟁 수준의 시험 문제를 해결할 수 있습니다.

Qwen2-Math에는 총 세 가지 매개변수 버전이 있습니다.

72B, 7B 및 1.5B.



Qwen2-Math-72B를 기반으로 Qianwen 팀은 Instruct 버전도 미세 조정했습니다.

이것도 Qwen2-Math의 주력 모델이기도 합니다. 보상 신호와 참 또는 거짓 판단 신호를 학습 레이블로 결합한 후 거부 샘플링을 통해 SFT(Supervised Fine-Tuning) 데이터를 구성하는 수학 특화 보상 모델입니다. 마지막으로 SFT 방법 최적화를 기반으로 GRPO를 사용합니다.

Qwen2-Math-72B-Instruct는 대수학, 기하학, 계산 및 확률, 정수론과 같은 다양한 수학 문제를 84%의 정확도로 처리합니다.

그리고 출시되자마자 대규모 수학적 모델에서 '왕위를 차지'했으며 MATH 데이터 세트에서 GPT-4o보다 7점 더 많은 점수를 얻었으며 이는 비율에서 9.6% 더 높습니다.

오픈 소스 Llama 3.1-405B 및 폐쇄 소스 GPT-4o, Claude 3.5 등을 직접 능가합니다.



보도 시점 현재 Qwen2-Math-72B-Instruct는 13,200회 이상 다운로드되었습니다.

그리고 최근 발견된 사실이 있습니다:

팀에서는 Qwen2-Math가 현재 주로 영어 장면을 대상으로 한다고 주장하지만,중국어 질문을 하면 Qwen2-Math가 계속 답변할 수 있습니다.

난 그냥 영어로 대답할 뿐이야.

Qwen2-Math로 이해됩니다.중국어와 영어 이중 언어 버전은 나중에 출시될 예정입니다.

참조 링크:
[1]https://huggingface.co/spaces/Qwen/Qwen2-수학-데모
[2]https://x.com/알리바바_Qwen/상태/1825559009497317406
[3]https://x.com/JustinLin610/상태/1825559557411860649