новости

работая в компаниях, занимающихся искусственным интеллектом, китайские компании после 95-х годов достигли оценки в 13,8 миллиарда долларов сша.

2024-09-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

источник丨chhuangebang (id: ichuangyebang)

автор丨juny

редактор | хай яо

источник изображения: bloomberg

коммерческое здание showplace plaza в сан-франциско, которое когда-то принадлежало airbnb, недавно приняло нового владельца. в то время, когда большинство технологических компаний сокращают свой бизнес, scale ai, компания по аннотированию данных с использованием искусственного интеллекта, основанная китайцами, родившимися после 1995 года, взмахом рук арендовала офис площадью около 180 000 квадратных футов в центре сан-франциско.

не так давно scale ai завершила свой последний раунд финансирования на сумму 1 миллиард долларов сша с оценкой в ​​13,8 миллиарда долларов сша, что вдвое больше, чем в предыдущем раунде в 7,3 миллиарда долларов сша. в этом раунде финансирования f, возглавляемом ведущим фондом кремниевой долины accel, в дополнение к существующим инвесторам, таким как yc и nvidia, также был добавлен длинный список новых инвесторов, в том числе: amazon, meta, amd, qualcomm, cisco, intel, qualcomm и т. д., с участием до 22 учреждений.

отправные точки для инвестирования в scale ai у большинства этих гигантов схожи: по сути, они являются клиентами scale ai. с быстрым развитием искусственного интеллекта маркировка данных, казалось бы, простой, скучный, трудоемкий и низкопороговый бизнес, шаг за шагом благодаря scale ai превратилась в большой бизнес.

ии «фабрика синих воротничков»

за прошедший период времени nvidia, несомненно, является самой упоминаемой компанией, когда речь идет о «продаже лопат ии». но многие люди не знают, что scale ai играет ту же роль. как мы все знаем, вычислительная мощность, алгоритмы и данные составляют три столпа искусственного интеллекта. nvidia занимает пик вычислительной мощности ии, а scale ai в настоящее время является основным поставщиком услуг, обеспечивающим поддержку данных для ии.

scale ai была основана в 2016 году. ее основателем является китаец александр ван, родившийся в 1997 году. ему было всего 19 лет, когда он основал компанию, и он только что закончил первый год обучения в массачусетском технологическом институте. когда компания scale была основана, она в основном занималась аннотированием данных искусственного интеллекта. ее основная деятельность заключалась в том, чтобы помогать предприятиям собирать, очищать, аннотировать и управлять крупномасштабными высококачественными данными для обучения и оптимизации моделей машинного обучения.

фактически, до появления scale ai аннотирование данных долгое время занимало «маргинальное» положение в области искусственного интеллекта. так называемая аннотация данных относится к процессу добавления структурированной информации к необработанным данным, таким как изображения, текст, видео или аудио, чтобы модели машинного обучения могли понимать эти данные и учиться на их основе. звучит сложно? но на самом деле это под силу даже ученику начальной школы. я, например, даю вам картинку и прошу отметить на картинке пешеходов, транспортные средства, здания и т. д. я даю вам фрагмент текста и. попросите вас отметить, какие восклицания являются вопросами. часть вашего голоса можно пометить эмоцией или личностью говорящего и т. д.

источник: шаип

хотя принцип прост, эти аннотированные данные незаменимы для развития искусственного интеллекта. модели ии требуют для обучения большого количества аннотированных данных, чтобы иметь такие функции, как распознавание, классификация и прогнозирование.

но головная боль многих компаний, занимающихся искусственным интеллектом, заключается в том, что, хотя некоторые автоматизированные инструменты могут ускорить часть процесса аннотирования, для получения высококачественных и высокоточных данных аннотаций по-прежнему требуется большой объем ручной работы по обработке, маркировке и проверьте данные. неправильная маркировка может привести к серьезным последствиям, особенно в областях с высокими требованиями к точности, таких как медицинская визуализация, автономное вождение или военное применение. из-за этого аннотирование данных считается трудоемким делом, и многие компании не хотят и не имеют сил управлять им самостоятельно, в результате чего процесс получения аннотированных данных занимает много времени и стоит дорого.

масштабный ии взял на себя эту «тяжелую работу». первоначальное позиционирование scale ai заключалось в создании эффективной и точной платформы для маркировки путем объединения автоматизированных технологий и человеческого анализа, чтобы помочь компаниям быстро обрабатывать и маркировать крупномасштабные наборы данных. ее бизнес-модель очень проста: она связывается с компаниями, которым требуется маркировка, выполняет простую предварительную обработку и очистку данных, а затем передает ее работникам в африке, юго-восточной азии и т. д. для маркировки данных.

в 2017 году компания scale ai создала remotasks в качестве своего внутреннего аутсорсингового агентства. она открыла десятки учреждений в кении, на филиппинах, в венесуэле и других местах и ​​обучила тысячи аннотаторов данных по всему миру. большая часть работы этих аннотаторов оплачивается. на поштучной основе, а доход за один звонок составляет всего несколько центов. многие контрактные работники даже зарабатывают менее 1 доллара в час. в рамках такой модели «глобальной фабрики» валовая прибыль scale ai может оставаться выше 65% в течение длительного времени.

используйте каждую возможность

хотя аннотирование данных кажется низкопороговым бизнесом, во время «периода молчания ии» примерно в 2016 году на рынке оно было практически пустым. лишь некоторые крупные компании, такие как google и amazon, имели свои собственные отделы аннотирования данных. успех scale ai во многом обусловлен точным пониманием этой возможности и способностью уловить несколько тенденций в развитии индустрии искусственного интеллекта за последние 10 лет.

во-первых, это автономное вождение. через несколько месяцев после основания scale ai они обнаружили масштабный и жесткий спрос на аннотирование данных в области автономного вождения. разработка технологий автономного вождения опирается на большое количество высокоточных аннотированных данных, таких как изображения дорожных сцен, пешеходов и других объектов. автомобильным компаниям необходимы десятки тысяч часов видеоданных для аннотаций для обучения и проверки своих алгоритмов. что касается всего автономного вождения. с точки зрения отрасли, более 90% аннотаций данных в то время выполнялось в основном вручную. scale ai использует эффективную платформу аннотирования данных, а также аннотацию на основе моделей и предварительную обработку данных для ускорения процесса обработки данных, тем самым значительно сокращая затраты и время на аннотирование, привлекая такие компании, как waymo и cruise, которые в то время были в центре внимания, к стать его клиентами, а затем постепенно закрепиться в области аннотирования данных автономного вождения.

источник изображения: scale ai

после первоначального успеха в области автономного вождения компания scale ai начала полностью выходить на рынок aiaas (ии как услуга). он простирается от простой маркировки данных до услуг обработки данных, предоставляя комплексные решения: от маркировки данных и управления ими, обучения и оценки моделей до разработки и развертывания приложений искусственного интеллекта.

кроме того, чтобы решить проблему нехватки данных в некоторых отраслях, scale ai также распространяется на генерацию синтетических данных, помогая обучать модели путем создания новых наборов данных на основе существующих данных. поэтому в последующие годы scale ai быстро развивалась в области данных, а ее клиенты расширились до медицины, национальной обороны, электронной коммерции, государственных услуг и других областей. спустя более чем два года после основания выручка scale ai приближается к 50 миллионам долларов.

масштабный ии также точно уловил возможности бурного развития генеративного ии. еще в gpt-2 компания scale провела первый совместный эксперимент по обучению с подкреплением с обратной связью от человека с помощью openai, а затем распространила эти технологии на instructgpt и другие области. поскольку генеративные модели ии требуют огромных объемов обучающих данных для повышения точности и разнообразия генерируемого контента, взрывной рост больших языковых моделей значительно повысил спрос отрасли на высококачественные аннотированные данные. scale ai объединяет аннотацию данных, синтез данных и многое другое. сервисы обеспечивают необходимую поддержку данных для генеративного ии. кроме того, scale ai также помогает предприятиям быстро создавать индивидуальные api, чтобы снизить сложность и стоимость самостоятельного обучения моделей.

источник изображения: scale ai

для генеративного искусственного интеллекта компания scale запустила комплексные платформенные сервисы, включая платформу инструментов разработчика scale spellbook, продукт синтетических данных scale synthetic, платформу genai корпоративного уровня и т. д. цель состоит в том, чтобы позволить предприятиям иметь достаточно данных в каждом сценарии. для поддержки модели обучение, благодаря своим уникальным преимуществам в области данных, компания scale ai за последние два года увидела резкий рост числа клиентов, включая таких гигантов, как openai, meta, aws и nvidia, а также новых единорогов, таких как cohere и adept. и многие из них также стали инвесторами scale ai в этом раунде финансирования.

почему scale ai процветает

что касается развития масштабного искусственного интеллекта, многие задаются вопросом: почему в такой трудоемкой отрасли искусственного интеллекта у китая есть врожденное преимущество? вообще говоря, за этим стоят два основных фактора: один – это промышленность, а другой – финансирование.

до бума генеративного искусственного интеллекта отечественная разработка искусственного интеллекта когда-то лидировала в сфере сценических приложений. бизнес аннотаций данных действительно начал развиваться очень рано, но не приобрел больших масштабов. хотя многие ведущие компании создали отделы аннотирования данных, они в основном служат собственному бизнесу, а не стремятся сопоставить данные с ресурсами в различных отраслях. в то же время именно из-за внутреннего демографического дивиденда стоимость получения маркированных данных низка, и у компаний нет стимула внедрять технологические платформы. понятно, что в течение долгого времени цены в отечественной индустрии аннотирования данных были очень прозрачными. почасовая заработная плата обычно составляет около 10-25 юаней, и большинство из них не имеют академической квалификации.

источник: непосредственный сотрудник boss.

для сравнения, стоимость рабочей силы в сша высока. на linkedin, indeed и других платформах почасовая заработная плата большинства работников с частичной занятостью составляет от 30 до 200 долларов сша. это объективно требует от компаний думать о решениях с технической точки зрения. перспектива: вопросы производства данных или закупки сопутствующих услуг.

с точки зрения финансовой среды, внутренний рынок аннотаций данных всегда был на грани финансирования в области ии. по оценкам исследований, к 2021 году размер всего рынка аннотаций данных в китае составит всего 4,3 миллиарда юаней, а в 2022 году он вырастет только до 5,1 миллиарда юаней. эту цифру, несомненно, не стоит упоминать по сравнению с триллионами масштабов всего рынка ии, и она также вызвала трудности с финансированием компаний, занимающихся аннотированием данных. в 2021 году, когда scale ai завершила финансирование серии e на сумму 325 миллионов долларов сша, а ее оценка достигла 7,3 миллиарда долларов сша, большинство аналогичных стартапов в китае все еще находятся в раунде серии a.

причина, по которой раньше внутренние масштабы были такими маленькими, заключалась в том, что просто учитывался только аспект маркировки. фактически, комплексные услуги обработки данных, такие как управление данными, оценка данных и синтез данных, полученные на основе аннотаций данных, являются частью этой отрасли с добавленной стоимостью.

что касается важности данных для разработки больших языковых моделей, алекс ванг, основатель scale ai, заявил в недавнем интервью, что люди исчерпали все данные в интернете и хотят разработать искусственный интеллект, более мощный, чем gpt-4.5. затем необходимо создать передовые данные. так называемые «современные данные» относятся к данным, которые тесно связаны со сценариями применения и могут своевременно отражать последние тенденции и изменения. они часто содержат большое количество длинных или редких сценариев, что помогает. улучшить производительность ии в нетипичных ситуациях и способствовать развитию искусственного интеллекта. границы интеллектуальных возможностей развиваются в таких направлениях, как сложное мышление и мультимодальность.

по мере углубления развития ии будущее обучение данных должно более соответствовать конкретным задачам и конкретным сценариям применения. поэтому также необходимо добывать и производить больше новых и дифференцированных данных. это причина текущего раунда scale ai в 1 миллиард. фокус работы после финансирования в долларах сша еще больше расширил творческие границы аннотаций данных.