소식

Doubao PC 버전 "박스 없음", 음성 볼륨부터 사투리까지

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

8월 22일, 상하이에서 볼케이노 엔진 AI 혁신 투어(Volcano Engine AI Innovation Tour)가 열렸습니다. 이 행사에서는 종합 채점, 음성 인식 및 기타 측면에서 빈백 모델의 개선을 시연했습니다.이번 릴리스의 핵심은 음성 기능입니다.

대규모 모델 팀은 대화형 AI 실시간 상호 작용 및 출력에 중점을 둡니다. Seed-ASR, 이 성과는 OpenAI가 7월 31일 출시한 ChatGPT의 새로운 고급 음성 모드와 비슷할 수 있습니다.

당시 소셜 미디어에 게시된 동영상에 따르면 OpenAI 직원은 챗봇을 방해하고 다른 방식으로 이야기를 전달하도록 요청할 수 있었고 챗봇은 방해를 받아 응답을 조정했습니다.

쉽게 말하면 '생각과 말하기'를 지원하고,더 강력한 상황 인식을 통해 더 나은 추론 능력과 더 정확한 답변 결과를 얻을 수 있습니다.

눈에 띄는 점은콩주머니언어 능력에 대한 주장모델 인식 지원만다린 오렌지광둥어, 상하이어, 쓰촨어, 시안어, 호키엔어 및 기타 중국 방언.

이것이 제가 홍콩과 쓰촨성에서 이야기하고 싶어지는 이유입니다.

다음에는 1.19.5_mac 버전을 기반으로 하겠습니다.두바오 AI PC버전,시험AI 텍스트 읽기 및 스크린샷 인식뿐만 아니라 최근 인기 있는AI 영상 시청, AI 사투리 인식그리고 다른 기능들,빈백과 비교해보세요.다양한 웹 버전 AI 대형 모델어떤 새로운 것들이 제공되는지.

기존 규칙과 마찬가지로 불안한 친구는 바로 요약 링크로 스크롤할 수 있습니다.

AI 문자읽기 동반자

첫 번째는 AI 텍스트 동반 읽기이다.

뉴스를 열고 요약 섹션까지 아래로 스크롤하여 도움을 주고 싶은 단락을 선택하면 빈백이 자동으로 나타납니다.검색, 번역, 해석, 복사그리고 다른 기능.

존재하다더 많은 기술을 발견하세요그 중 텍스트 약어, 수정, 다듬기 등 6가지 기능과 소셜 미디어 카피라이팅, 영상 스크립트 등 3가지 기능, 주간 보고서, OKR, 코드 생성 등 4가지 기능을 갖춘 AI 단어 묘사 툴바가 있다. 장단점 요약, 과제 항목 추출, 브레인스토밍 등 6개 항목과 분류하기 어려운 항목을 오류 수정,사용자 정의 가능한 상단 설정을 갖춘 총 22개의 모듈 기능이 있습니다.

가장 기본적인 Doubao 설명 요청을 선택했는데 약 25초 정도 기다리니 다음과 같은 내용이 나왔습니다.

Doubao는 먼저 일반적인 아이디어를 요약한 다음 좀 더 대화적이고 대중적인 설명을 제시하는 것을 볼 수 있습니다.눈에 띄는 점은 위의 '파레토 법칙'처럼 선택한 텍스트 문단의 고유명사를 적극적으로 파악하고 설명한다는 점이다.

현시점에서는 Doubao 모듈이 제공하는 22가지 기능이 지능과 개인화 측면에서 더 깊은 이해를 보여줄 수 있을지 지켜봐야 합니다.하지만 분명한 것은 PC가 백그라운드에서 실행 중일 때 검색을 위해 복사해서 다른 창에 붙여넣을 필요도 없고, 고유명사를 골라 따로 검색하거나 질문할 필요도 없다는 것입니다.

AI 사진인식

빈바오로 스크린샷을 찍으니 뜹니다질문과 답변, 번역, QQ빈백함수 항목이 3개라서 고등학교 수학 문제를 선택해서 도바오에게 문제를 풀고 답을 달라고 했습니다.

Doubao는 스크린샷 영역에서 해결 과정과 질문에 대한 답변을 제공할 뿐만 아니라 여러 가지 유사한 질문과 그에 대한 해결 방법도 제공합니다.

하지만 Translate와 Ask Doubao를 사용하면 문장을 지능적으로 분할할 수 없을 뿐만 아니라 실수도 자주 저지릅니다.

이미지 인식의 어려움을 고려하여 단락 텍스트로 전환했지만 개선이 없었습니다.

나는 다시 시도했다콩주머니에 대해 물어보세요, 종속그림 속 핵심 내용 정리그리고텍스트 추출두 모듈을 별도로 사용해 보았습니다.

전반적으로 핵심 콘텐츠 정리 기능의 성능이 뛰어납니다.하지만 텍스트 추출에서는 완전한 그림조차 인식하지 못했으며, 그래도 깔끔하게 정리된 서체였습니다.

AI 시청 영상

AI로 영상을 시청하는 기능은 현재 B사이트 영상으로 제한되어 있으며,Doubao 인터페이스에서 열기그리고 B 스테이션 계정으로 로그인하세요.

그래서 '만주 장르' 시즌 3와 7화의 내용을 무작위로 선택했고, 약 20초 정도 기다린 끝에 아래와 같은 내용이 나왔습니다.

영상 세그먼트의 타임라인에서 AI의 이미지와 텍스트 매칭이 정확하지 않다는 것을 알 수 있지만,기본적으로 콘텐츠 세분화가 가능합니다.

해당 영상은 중국어 번체 자막과 함께 일본어로 더빙되어 있어 다소 당황스러울 수도 있습니다.

영상 초반부에는 주요 아이디어에 대한 명확한 요약이 있지만 오른쪽의 텍스트 요약에는 명확하게 반영되지 않습니다. 게다가 '타인에 대한 감사' 부분에서는 영상 속 인물이 우시다 씨 대신 오조 씨에게 감사 인사를 전하는 내용이 담겨 있는데, 이는 콩주머니 요약의 오류다.

AI 방언 인식

공식 발표에 따르면 Doubao는 광둥어, 상하이어, 쓰촨어, 시안 및 Hokkien을 지원합니다. 다음으로 Doubao가 나의 깨진 광둥어를 인식할 수 있는지 살펴보겠습니다. 홍콩에 거주 중), ​​더 많은 원주민 경험을 공유하기를 기대합니다~).

언어 인식에는 문제가 없습니다. Doubao는 "죽 전골을 먹고 싶어요"를 이해하고 "베이징에서 맛있는 죽 전골을 어디에서 찾을 수 있습니까?"라는 검색 옵션까지 제공합니다., 그런데 메시지가 전송된 후 AI 검색의 대화 인터페이스로 점프했고, 나에게 보낸 답장은 음성이 아닌 텍스트였다.

또한, 사투리 입력은 홈페이지에서만 가능하며, 대화 인터페이스에서는 사투리 입력을 계속할 수 없습니다. 따라서 계속해서 홈 페이지로 돌아가야 하며 메시지가 전송될 때마다 새 탐색 페이지 창이 열립니다. . .

하지만 방언을 입력할 수 있다는 점은 여전히 ​​큰 발전이며 전반적인 성능도 만족스럽지 않습니다. Doubao 앱은 음성 응답을 지원하는 것으로 알려져 있습니다.

모바일 앱을 사용해 보았는데방언 발음같은 문장이 입력되었고 Doubao는 다음으로 끝났습니다.중국어 음성답변을 주셨고 "베이징에서 맛있는 죽전골을 어디에서 찾을 수 있나요?"라는 검색어를 선택했습니다.

즉, Doubao는 방언 입력을 지원하지만 현재 방언 상호 작용은 지원하지 않습니다.이 기능은 다양한 언어로 참가자를 위한 회의록을 구성하는 등 재미 있고 비즈니스적인 상황에서 주로 사용됩니다.

요약 세션

내 상상 속에는 데스크탑에 AI 전자 인형이 있는데, 이는 나에게 고양이처럼 정서적인 가치를 제공하고, 나에 대한 모든 것을 처리하는 데 진정으로 도움을 준다. Siri만큼 쉽게 깨울 수 있지만 Siri보다 더 강력합니다.

Doubao의 AI 텍스트 읽기는 PC 측의 애플리케이션 전반에 걸쳐 사용할 수 있습니다. 22개의 모듈 기능을 제공하며 소셜 동물, 프로그래머 및 셀프 미디어 작업자를 위한 시나리오 기반 적용 범위도 있습니다. 제가 상상했던 기본 기능을 갖고 있지만 탐구와 성장의 여지도 많습니다.

그림 인식 측면에서는 문제 해결과 질문에 답하는 데 능숙하며 이는 PC 쪽 숙제 깡패와 원숭이에 해당합니다. 그러나 PC 사용자 기반을 고려하면 Doubao는 고급 수학+ 분야에서 심도 있는 노력을 기울일 것으로 예상됩니다. 결국, 일반적인 숙제와 시험지의 질문과 답변은 휴대폰에서 더 빠르다. 문제나 논문의 전자 버전에서만 PC에 대한 수요가 있을 것이다.

AI 비디오의 분할 및 요약 기능은 매우 눈길을 끌며, 특히 인기 과학 비디오의 경우 Doubao는 큰 잠재력을 가지고 있습니다. 인문사회과학의 주제는 모든 주요 모델의 공통적인 문제이다.

사실 가장 기대되는 기능은 AI 사투리인데,결국 "현지 발음은 변함이 없고, 절의 털은 옅어진다." 때로는 내 고향이 메뉴가 많을 때도 있고, 때로는 익숙한 '그 맛'일 때도 있다. 그러나 전반적으로 두바오의 방언 상호작용 생태학은 아직 갈 길이 멀다.

방언 대화는 현대 도시인들의 고향 정서를 식별하는 것뿐만이 아니다. 더 중요한 것은 기술이 차가운 화면을 관통하여 보편적인 "중국어"를 말할 수 없는 사람들을 돌본다는 것입니다. 그들은 삶으로 침묵의 역사를 쓰지만 종종 역사에 의해 잊혀지기도 합니다. .

방언이 인식에서 상호 작용으로 이동하면 Doubao도 더 발전할 수 있습니다.