новости

Версия Doubao для ПК «распакованная», от громкости голоса до диалекта

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

22 августа в Шанхае открылся тур по инновациям в области искусственного интеллекта Volcano Engine. Мероприятие продемонстрировало улучшение модели кресла-мешка в плане комплексной оценки, распознавания речи и других аспектов.Голосовые возможности находятся в центре внимания этого выпуска.

Большая команда моделей фокусируется на диалоговом взаимодействии и выводе данных в режиме реального времени с использованием искусственного интеллекта. Seed-ASR, это достижение можно сравнить с новым расширенным голосовым режимом ChatGPT, выпущенным OpenAI 31 июля.

Сотрудники OpenAI смогли прервать чат-бота и попросить его рассказать историю по-другому, а чат-бот спокойно воспринял их перерывы и скорректировал свои ответы, согласно видео, опубликованным в то время в социальных сетях.

Проще говоря, он поддерживает «думать и говорить одновременно»,Иметь более четкое понимание контекста, а значит, иметь лучшую способность к рассуждению и более точные результаты ответов.

Что поражает, так это то, чтопогремушкаЗаявления о своих речевых способностяхПоддерживает распознавание моделимандарини кантонский, шанхайский, сычуаньский, сианьский, хоккиенский и другие китайские диалекты.

Это вызывает у меня желание поговорить с ним в Гонконге и Сычуани.

Далее я возьму за основу версию 1.19.5_mac.Doubao AI версия для ПК,тестЧтение текста AI и распознавание скриншотовА также популярный в последнее времяПросмотр видео с помощью ИИ, распознавание диалекта с помощью ИИи другие функции,Посмотрите, как кресла-мешки сравниваются сРазличные крупные модели AI веб-версииКакие новые вещи предусмотрены.

По старому правилу тревожные друзья могут прокрутить страницу вниз прямо до раздела сводки.

Компаньон для чтения текста с искусственным интеллектом

Первый — это сопутствующее чтение текста ИИ.

Я открыл новость, прокрутил вниз до раздела сводки, выбрал абзац, в котором хотел помочь, и автоматически появилась погремушка.Ищите, переводите, интерпретируйте, копируйтеи другие функции.

существоватьОткройте для себя больше навыковСреди них — панель инструментов для определения слов AI, которая имеет 6 функций, таких как сокращение текста, исправление и полировка, 3 функции, такие как копирайтинг в социальных сетях или видеоскрипты, и 4 функции, такие как создание еженедельных отчетов, OKR и код. исправление ошибок 6 пунктов, включая краткое изложение преимуществ и недостатков, извлечение элементов задачи, мозговой штурм и т. д., а также те, которые трудно классифицировать,Всего имеется 22 функции модуля с настраиваемыми верхними настройками.

Я выбрал самый простой запрос на объяснение Дубао. Подождав около 25 секунд, я получил следующее содержимое.

Видно, что Дубао сначала резюмирует общую идею, а затем следует более разговорное популярное объяснение.Что поразительно, так это то, что он активно идентифицирует и объясняет имена собственные в выделенном абзаце текста, как, например, «Правило Парето» выше.

На данный момент еще неизвестно, смогут ли 22 функции, предоставляемые модулем Doubao, продемонстрировать более глубокое понимание с точки зрения интеллекта и персонализации.Но что ясно, так это то, что когда ПК работает в фоновом режиме, мне не нужно копировать и вставлять его в другое окно для поиска или даже подбирать имена собственные для поиска или отдельно задавать вопросы.

Распознавание изображений с помощью искусственного интеллекта

Когда я сделал скриншот с помощью Beanbao, он всплылВопросы и ответы, перевод, кресло-мешок QQЕсть три функциональных элемента, поэтому я выбрал школьную математическую задачу и попросил Дубао решить ее и ответить на вопросы.

Дубао не только показывает процесс решения и ответ на вопрос в области скриншота, но также предоставляет несколько похожих вопросов и их решений.

Но когда я использую «Перевести» и «Спросить Дубао», я не только не могу грамотно сегментировать предложения, но и часто делаю ошибки.

Учитывая сложность распознавания изображений, я перешел на абзацевый текст, но улучшения не произошло.

Я попробовал еще разСпросите о мешках с фасолью, подчиненныйОрганизуйте основной контент на картинкеиИзвлечь текстЯ попробовал два модуля по отдельности.

В целом производительность основной функции организации контента превосходна.Но извлечение текста даже не распознало полную картину, а это всё равно был аккуратно оформленный шрифт.

ИИ смотрит видео

Функция просмотра видео с помощью AI в настоящее время ограничена видео сайта b и требуетОткрыть в интерфейсе DoubaoИ войдите в учетную запись станции B.

Итак, я случайным образом выбрал контент третьего сезона и 7 серии «Жанра позднего пьянства» и, подождав около 20 секунд, получил следующий контент.

Видно, что на временной шкале сегментов видео сопоставление изображения и текста ИИ не является точным, ноПо сути, сегментация контента может быть достигнута.

Видео дублировано на японском языке с традиционными китайскими субтитрами, что, наверное, немного смущает.

В начале видео есть четкое изложение основной идеи, но она нечетко отражена в текстовом изложении справа. Более того, в разделе «Благодарность другим» персонаж видео поблагодарил г-жу Озо вместо г-на Ушиду, что является ошибкой в ​​кратком описании погремушки.

Распознавание диалекта ИИ

Согласно официальному объявлению, Дубао поддерживает кантонский, шанхайский, сычуаньский, сианьский и хоккиенский диалекты. Далее давайте посмотрим, сможет ли Дубао распознать мой ломаный кантонский диалект (родного диалекта нет, есть только ломаный кантонский диалект, появившийся за полгода). живу в Гонконге), с нетерпением жду возможности поделиться опытом коренных народов~).

С распознаванием языка проблем нет. Дубао понимает фразу «Я хочу съесть горячее кашу» и даже предлагает вариант поиска «Где я могу найти вкусное горячее кашу в Пекине?», но после того, как сообщение было отправлено, оно перешло в интерфейс беседы поиска AI, и ответ мне был текстом, а не голосом.

Кроме того, ввод на диалекте доступен только на главной странице, и я не могу продолжать вводить на диалекте в интерфейсе беседы. Поэтому мне приходится снова и снова возвращаться на домашнюю страницу, и каждый раз при отправке сообщения будет открываться новое окно страницы навигации. . .

Однако возможность ввода диалектов по-прежнему является большим прорывом, а общая производительность остается неудовлетворительной. Понятно, что приложение Doubao поддерживает голосовые ответы.

Я попробовал использовать мобильное приложениедиалектное произношениеБыло введено то же предложение, Дубао закончился словамиМандаринский голосМне ответили и предоставили выбранный поисковый запрос «Где я могу найти вкусную горячую кашу в Пекине?»

Другими словами, Doubao поддерживает диалектный ввод, но в настоящее время не поддерживает диалектное взаимодействие.Эта функция чаще всего используется в развлекательных и деловых ситуациях, например, для организации протоколов встреч для участников на разных языках.

Итоговая сессия

В моем воображении на рабочем столе находится электронная кукла с искусственным интеллектом, которая, как и моя кошка, придает мне эмоциональную ценность и действительно помогает мне справляться со всем, что касается меня. Проснуться так же легко, как Siri, но это более мощно, чем Siri.

Чтение текста с использованием искусственного интеллекта Doubao можно использовать во всех приложениях на ПК, предоставляя 22 функции модуля. Помимо базовой обработки текста, он также имеет сферу применения на основе сценариев для социальных животных, программистов и работников средств массовой информации. основные функции, которые я себе представлял, но есть также много возможностей для исследования и роста.

Что касается распознавания изображений, он хорошо решает проблемы и отвечает на вопросы, что эквивалентно бандам и обезьянам с домашними заданиями на ПК. Однако, учитывая базу пользователей ПК, Дубао, как ожидается, приложит всесторонние усилия в области высшей математики. Ведь ответы на вопросы и ответы на обычные домашние задания и контрольные работы проходят быстрее на мобильных телефонах. Только с электронными версиями вопросов или работ появится спрос на ПК.

Функции сегментации и обобщения видеороликов AI очень привлекательны, особенно для научно-популярных видеороликов, у Doubao большой потенциал. Тема гуманитарных и социальных наук является общей проблемой для всех основных моделей.

На самом деле, диалект ИИ — это та функция, которую я жду больше всего.Ведь «местное произношение остаётся неизменным, а волосы на висках тускнеют. Иногда мой родной город — это длинный список меню, а иногда — привычное «тот вкус». Но в целом интерактивной экологии на диалекте Дубао еще есть над чем работать.

Диалектный диалог определяет не только настроения современных горожан в родном городе. Что еще более важно, технологии проникают за холодный экран и заботятся о тех, кто не может говорить на универсальном «китайском языке». Они пишут молчаливую историю своей жизнью, но часто забываются историей. Им также нужен ИИ и все, что с ним связано. .

Когда диалекты перейдут от распознавания к взаимодействию, Дубао может пойти еще дальше.