данных искусственного интеллекта не хватает, крупные производители присматриваются к дешевой молодежи

2024-09-03

чтобы получить новые данные и обучить большие модели ии, крупные интернет-компании, такие как bytedance, берут дело в свои руки и нанимают «регистраторы ии» по цене от 300 юаней за раз для настройки корпуса.

офисное здание byte, расположенное в храме дачжун в пекине, является домом для бизнес-команды byte douyin и бизнес-команды volcano engine. с начала года они набирают любителей для записи модели doubao. два человека образуют команду, каждый раз составляет 3 часа, включая 80 минут бесплатного чата и 60 групп разговоров с подсказками, а общая сумма расчета составляет 300 юаней.

трехчасовую запись на протяжении всего процесса сопровождали как минимум два сотрудника name. «разговор не должен быть слишком длинным, он должен иметь содержание и информацию. если качество слишком плохое, деньги будут вычтены соответствующим образом». «подсказки не могут быть изменены, и большая модель не может их понять». с 18:00 до 21:00 инструкции, данные сотрудниками byte во время процесса записи, еще больше свидетельствовали об их беспокойстве по поводу качества записи.

надпись: внутренний вид студии звукозаписи храма дачжун.

фактически, города второго уровня, такие как чэнду, тайюань и гуйчжоу, уже стали городами аутсорсинга данных искусственного интеллекта для таких крупных компаний, как bytedance, baidu и alibaba. «в прошлом году студенты младших курсов могли заниматься аннотированием данных и чтением на диалекте. сейчас мы набираем стажеров из 211 и 985 для руководства аутсорсингом», — сказал менеджер по продукту крупной модели.

minimax, которая только что запустила большую видеомодель в сентябре, ее основатель ян цзюньцзе сообщил alphabet, что в шанхае, в дополнение к высококачественным данным от корпусных компаний, minimax также будет закупать некоторые платформенные данные.

данные, алгоритмы и вычислительная мощность — это три столпа больших моделей ии, среди которых данные являются основой для обучения больших моделей. однако, поскольку интернет-данные разбросаны по разным платформам и окружены барьерами, общедоступные данные, которые можно использовать для обучения крупных моделей ии, иссякают.

в июне исследовательская организация epoch ai опубликовала новое исследование, в котором прогнозируется, что данные, доступные для публичного обучения языковым моделям ии, будут исчерпаны технологическими компаниями в период с 2026 по 2032 год. еще в мае 2023 года генеральный директор openai альтман публично признал, что в ближайшем будущем компании, занимающиеся искусственным интеллектом, исчерпают все данные в интернете.

как найти высококачественные новые данные для «питания» больших моделей, стало общей проблемой для всех крупных команд по моделированию ии.

некоторые крупные компании неоднократно были вовлечены в споры из-за подозрений в несанкционированном использовании сторонних данных. в августе более 100 ведущих youtube подали в суд на openai, обвинив компанию в незаконной расшифровке миллионов видеороликов youtube для обучения больших моделей. в проекте также участвуют такие гиганты, как nvidia, apple и anthropic.

для крупных производителей только наличие собственных высококачественных данных с закрытым исходным кодом может обеспечить своевременность и качество подачи данных в большие модели. отказ от сторонних платформ с нестабильным контролем качества и попытка самостоятельно писать «скрипты» для ии могут стать новым подходом для крупных производителей моделей.

в начале этого года на таких платформах, как xiaohongshu, незаметно появился ии, записывающий подработку по цене 300 юаней за сеанс.

по сравнению с подработкой записи с использованием искусственного интеллекта на таких платформах, как boss direct employment, где платят 30-55 юаней в час, так называемая «студия звукозаписи с частичной занятостью в лучшей студии», которая платит 300 юаней за час и записанное в храме дачжун в пекине, весьма заманчиво.

в августе, когда меня подключили к группе записи через wechat, alphabet list (id: wujicaijing) обнаружил, что записи в группе уже ждали более 200 человек. поскольку предусмотрено, что группа из двух человек может записывать разговор на срок до трех часов, то после присоединения к группе больше всего всплывают сообщения wechat типа «ищу партнера» и «может ли кто-нибудь записать со мной?».

на самом деле, нелегко быть записывающим ии и «писать сценарии для ии» за 300 юаней за раз.

прежде всего, перед записью каждый должен загрузить 2-3-минутную запись разговора в качестве «образца». рецензенты byte решат, уведомлять ли пользователей, записывающих неполный рабочий день, на основе эффекта образца. иэтот процесс будут проверены 3 сотрудниками, только если 2 из них пройдут проверку, время записи будет зарезервировано напрямую. в противном случае будет проведена перекрестная проверка.

после второго анализа образца чжан сюэ назначил встречу на время записи с 18 до 21 часа на второй неделе после отправки образца. в групповом чате многие люди застревали в пробном сеансе: «учителю по проверке нравятся те, кто может и любит общаться». эмоциональные разговоры и тематический контент заставили больше людей застрять в процессе проверки.

примечание. группа звукозаписи храма дачжун. источник: снимок экрана с алфавитным списком.

в ночь записи чжан сюэ сидел на стуле через прозрачное стекло студии звукозаписи, расположившись в наилучшем положении, при котором голос мог быть четко записан, и слушал инструкции сотрудников byte через наушники.

первая сессия представляла собой 80-минутную бесплатную беседу между ними двумя без какой-либо темы. требования сотрудников байта заключаются в том, что чат не может быть «малоговорящим» и должен быть содержательным. при этом каждая тема не может превышать 10 минут, а также не может быть длинных монологов. разговор должен быть относительно ровным.

чжан сюэ и ее партнер разговаривали в звукозаписывающей комнате через огромную гарнитуру, стараясь не делать пауз в течение 80 минут. в то же время вам также следует стараться удерживать свое тело от движений, кашля, смеха и других звуков, ухудшающих качество записи.

чтобы обеспечить качество голоса, сотрудники byte время от времени подключают наушники, предлагая перезаписать, если есть шум или если чат «неестественен и имеет слишком много ориентировочных меток», его также необходимо перезаписать. -записано. стандартом качественного голоса является то, что общение естественно, темы непрерывны, настроение позитивное, но разговор не должен торопиться, разговор должен быть содержательным и не многословным. после неоднократных корректировок первый сеанс занял почти 2 часа.

на втором этапе было записано 60 наборов диалогов со словами-подсказками. несмотря на то, что для справки существует сценарий, чжан сюэ, будучи ии-рекордером, не только должен составлять диалоги в соответствии с ситуацией, но и обеспечивает строгий шаблон диалога, то есть последний набор диалогов заканчивается буквой a, затем следующий набор. диалогов должен начинаться с буквы b.

в то же время, чтобы удовлетворить потребности в отладке больших моделей, в каждой инструкции должны быть четко указаны слова-подсказки: «можно ли это поподробнее? можно ли поподробнее? можно ли поподробнее в гарнитуре?» byte сотрудники также дали понять, что сценарий можно изменить, но нельзя изменить только слова-подсказки. другими словами, ии может быть сложно его распознать.

чтобы гарантировать качество записи, если запись нечеткая, слова проглатываются или настроение недостаточное, запись будет перезаписана. к тому времени, когда запись закончилась, чжан сюэ покинул храм дачжун. было почти 10 часов вечера. для трехчасовой записи сотрудникам byte приходится записывать три раза в день, а еженедельное расписание почти заполнено.

помимо пекина, byte уже наняла рекордеры в шанхае, ханчжоу, чунцине, нанкине, чэнду, тяньцзине и других городах.

для крупных производителей моделей, жаждущих новых данных, операция «трата денег на получение данных» не нова.

в 2023 году, когда большие модели искусственного интеллекта становятся новой тенденцией, крупные производители не только приобретают данные напрямую через сторонние компании, но и создают аутсорсинговые должности, такие как «аннотатор больших данных» и «редактор искусственного интеллекта».

в 2023 году арлин, специализировавшаяся на второстепенных языках, начала «работать» на крупных моделей через такие сайты, как boss direct recruitment, во время вступительных экзаменов в аспирантуру.

через компанию под названием «x data» алин проводит приемочную проверку текстового содержимого, распознанного изображением большой модели, то есть проверяет, соответствует ли текст на мелком языке после распознавания изображения большой модели изображению. в соответствии с ценой «одно слово или предложение считается за одну ячейку расчета, а каждая ячейка считается за 1 цент», а линь может зарабатывать десятки юаней за раз, вычисляя сотни предметов.

в этом году a lin также получила заказы через стороннюю компанию по обработке данных на аннотацию данных ai, связанную с переводом, и цена выросла до более чем 1 юаня за штуку. однако, чтобы вручную определить, являются ли точными малые языки, такие как французский, переведенные с помощью большой модели, аннотаторы должны не только находить ошибки, но и использовать разные цвета для аннотирования содержания перевода 5-6 больших моделей. модели. «иногда на просмотр одного произведения уходит 10–15 минут».

поработав в ai, алин также обнаружила, что как только эти большие модели были отделены от исходного корпуса учебников по малым языкам, новые слова, используемые социальными платформами, или привычные слова небольших групп не были включены в их собственные базы данных, я начал думать. об этом: «из-за ограничений авторских прав я не мог изучать новый текстовый контент, и это также повлияло на эффект перевода».

помимо сторонних аутсорсинговых компаний, крупные производители также создали свои собственные базы данных.

например, базы данных baidu распространены в городах не первого уровня, таких как наньчан, янцюань, тайюань, гуйчжоу и т. д., и для завершения сбора аннотаций данных, чтения диалектов и других данных в этих городах достаточно «наймите несколько местных студентов, которые умеют работать на компьютерах».

однако по сравнению с крупными производителями, которые готовы тратить деньги, крупным модельным тиграм гораздо сложнее получить высококачественные данные.

«основные высококачественные данные с закрытым исходным кодом часто монополизируются крупными компаниями. стартапы ии, даже четыре ии-тигра, могут иметь доступ только к маргинальным данным».лео, сотрудник по алгоритмам крупного производителя моделей, рассказал alphabet.

поскольку высококачественные данные могут значительно улучшить производительность модели, в дополнение к общедоступным данным из открытых источников крупным производителям моделей необходимы данные более высокого качества для завершения обучения и достижения технологической итерации. однако эти данные часто контролируются крупными компаниями. например, данные внутренних новостей контролируются крупными компаниями, такими как tencent и byte, а за рубежом — common crawl, gdelt, the pile и т. д.

за границей даже youtube объявил в конце июня, что предоставит лицензионные соглашения ведущим звукозаписывающим компаниям в обмен на музыку, защищенную авторским правом, которая будет использоваться для обучения. openai заключает платные соглашения с такими издателями новостей, как politico, the atlantic, time и financial times, на использование и цитирование их новостных материалов.

когда ключевые данные в основном контролируются внутри «участников канала», таких как tencent, byte и meta, ключевые пользовательские данные были разделены еще в эпоху мобильного интернета. если они хотят добиться технологического прорыва, эти четыре. ии-тигры должны сначала заплатить огромную сумму денег. небольшую «плату за передачу данных».

для производителей во второй половине предпринимательства в области больших моделей «иллюзия больших данных» также является одной из причин, почему большие модели коллективно не могут определить, что больше: 9,11 или 9,9.

когда alphabet ввела «маленькую девочку, держащую на руках кота-рэгдолла» в conch ai minimax, потребовалось 2 минуты, чтобы создать 6-секундное видео. пальцы маленькой девочки, держащей кошку, были богаты деталями, но она держала кошку. в ее руках. тот, кто носит его, не кот-рэгдолл.

столкнувшись с полученными результатами, сотрудник minimax по большой видеомодели объяснил: «это потому, что данные, используемые для обучения большой модели, не включают кошек рэгдолл в изображения привязок кошек».

когда контент, генерируемый моделью, не соответствует реальным фактам или пользовательскому вводу, то есть большая модель начинает галлюцинировать и начинает «говорить чепуху».для крупных производителей моделей, жаждущих новых пользователей, эффект генерации, очевидно, определяет, есть ли у продукта шанс выйти из круга.

«вводная команда заключалась в извлечении всех развлекательных новостей за август. в результате ии сгенерировал контент развлекательных новостей в августе 2019 года». при использовании продукта с большой моделью головы лояльный пользователь конг фанг поймал ии». "ерунда" несколько раз. в момент "выступления" он либо компилировал цитаты, которых вообще не существовало, либо был неспособен понять новые концепции за последние два года, из-за чего у конга фана возник кризис доверия к крупным моделям .

теперь конг фан будет использовать 2-3 большие модели от разных производителей, чтобы «запустить» одну и ту же проблему одновременно, а затем перекрестно сравнить ключевую информацию, такую как время, количество, документы и т. д., а также подтвердить это дважды. через поисковые системы: «теперь ии генерирует. это похоже на вытягивание карт, эффект неконтролируем, и легко оказаться умственно отсталым», — беспомощно сказал кун фан.

высококачественные данные могут постепенно исчерпаться. чтобы решить проблему «иллюзии большой модели», очевидно, важно использовать данные для «питания» большой модели.

человек, близкий к baidu, рассказал alphabet, что крупные производители моделей будут приобретать данные напрямую через сторонние компании, что экономит время и усилия, но не является «простым», поскольку качество приобретаемых данных, будь то текст, запись или видео, является низким. безупречный.

для тех, кто активно разрабатывает большие модели голов для клиентов b-end, более персонализированная настройка больших моделей под конкретного клиента сегодня стала основным источником дохода ai-бизнеса крупных производителей. но если вы хотите обучить такую персонализированную модель, вам необходимо «накормить» ее данными, отфильтрованными в соответствии с высокими стандартами, и даже скорректировать потребность в данных в соответствии с эффектом обучения большой модели на разных этапах. «это не просто так. купив кучу голосов, этому можно научиться на большой модели».

а лин, которая работала ии-переводчиком в сторонней компании по обработке данных, также обнаружила, что «как сторона, предоставляющая данные, ее компания, похоже, не особо заботится о качестве речи, генерируемой большой моделью».

что касается алины, которая специализируется на французском, испанском и других второстепенных языках, ей нужно одновременно сравнить эффекты генерации 5-6 больших моделей для перевода речи на второстепенном языке в текст для стороны а, но ей нужна только приблизительная оценка. сгенерированные 5 - 6 текстов. в чем подробные языковые различия и как их можно улучшить сторонняя компания не спросит и "равнодушна".

отсутствие высококачественных данных может быть причиной того, что многие пользователи говорят, что «контент, создаваемый любой большой моделью, почти одинаков», а также это основная причина, по которой пользователи «просто переключаются на другую большую модель, как только взимают плату за нее». это" .

для пользователей отечественные большие модели, которые утверждают, что догоняют openai и продолжают технически развиваться, могут не иметь существенных различий и не могут стать лояльными пользователями. это также создает некоторую путаницу для производителей крупных моделей, которые стремятся к коммерциализации. .

поэтому, даже если «писать сценарии для ии» лично — это долго, трудоемко и дорого, byte тоже пошла по новому пути. можно предвидеть, что для решения ключевых вопросов коммерциализации и привлечения пользователей «покупка данных» с большим бюджетом может стать новой точкой конкуренции для крупных производителей моделей.

(алинь, конг фан и чжан сюэ — псевдонимы в статье)

новости

данных искусственного интеллекта не хватает, крупные производители присматриваются к дешевой молодежи

введение

моя контактная информация