Новости

Университет Цинхуа получил награду за лучшее бумажное тестирование времени, Шаньдунский университет получил почетную награду, а выпущен SIGIR 2024.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Отчет о сердце машины

Монтажер: Сяо Чжоу, Чэнь Чен

Результаты Университета Цинхуа выдающиеся.

47-я конференция Ассоциации вычислительной техники по информационному поиску (ACM SIGIR) пройдет в Вашингтоне, округ Колумбия, США, с 14 по 18 июля 2024 года. Эта конференция является ведущей научной конференцией в области информационного поиска.

Только что на конференции были объявлены награды за лучшую статью, занявшую второе место за лучшую статью, награду за почетное упоминание за лучшую статью и премию Time Test.

Среди них Университет Цинхуа, Школа искусственного интеллекта Хиллхаус при Китайском университете Жэньминь и команда Сяохуншу выиграли лучшую работу; исследователи из Университета Глазго и Пизанского университета заняли второе место в номинации «Почетное упоминание» за лучшую работу; статья была присуждена Шаньдунскому университету (Циндао), Лейденскому университету и Амстердамскому университету; премия Time Test Award была присуждена исследователям из Университета Цинхуа и Калифорнийского университета в Санта-Крус.

Далее давайте посмотрим на конкретное содержание статьи-победителя.

лучшая статья



Диссертация: Законы масштабирования для плотного поиска

Авторы статьи: Фан Янь, Цзинтао Чжань, Ай Циняо, Мао Цзясинь, Вэйхан Су, Цзя Чэнь, Лю Ицюнь.

Учреждения: Университет Цинхуа, Школа искусственного интеллекта Hillhouse при Китайском университете Жэньминь, Сяохуншу.

Ссылка на документ: https://dl.acm.org/doi/abs/10.1145/3626772.3657743.

Введение в статью : Исследователи наблюдали законы масштабирования в широком спектре задач, особенно в генерации языка. Исследования показывают, что производительность больших языковых моделей подчиняется предсказуемым закономерностям в зависимости от размера модели и набора данных, что помогает эффективно и результативно разрабатывать стратегии обучения, особенно когда крупномасштабное обучение становится все более ресурсоемким. Однако при плотном поиске закон расширения не изучен полностью.

В этом исследовании изучается, как масштабирование влияет на производительность моделей плотного поиска. В частности, исследовательская группа реализовала модели плотного поиска с разным количеством параметров и обучила их, используя разные объемы аннотированных данных. В этом исследовании контрастивная энтропия используется в качестве показателя оценки. По сравнению с показателями дискретного ранжирования, контрастивная энтропия является непрерывной и, следовательно, может точно отражать эффективность модели.



Экспериментальные результаты показывают, что производительность моделей плотного поиска соответствует точному степенному масштабированию в зависимости от размера модели, а также количества аннотаций.







Кроме того, исследование также показывает, что закон масштабирования помогает оптимизировать процесс обучения, например, решать проблемы распределения ресурсов в условиях бюджетных ограничений.



Это исследование вносит значительный вклад в понимание эффектов масштабирования моделей плотного поиска и дает содержательные рекомендации для будущих исследований.

Второе место в номинации «Лучшая бумага»

Второе место в номинации «Лучшая статья» на ACM SIGIR в этом году заняла статья «Исследование воспроизводимости PLAID». Авторами статьи являются Шон МакЭвани из Университета Глазго и Никола Тонеллотто из Пизанского университета.



Адрес статьи: https://arxiv.org/pdf/2404.14989.

Бумага абстрактная : Алгоритм PLAID ColBERTv2 использует кластерные представления терминов для извлечения и постепенного сокращения документов для получения окончательной оценки документа. Данная статья воспроизводит и восполняет недостающие пробелы в оригинальном тексте. Изучая параметры, введенные PLAID, исследователи обнаружили, что его граница Парето формируется за счет баланса между тремя параметрами. Отклонение от рекомендуемых настроек может значительно увеличить задержку без обязательного повышения ее эффективности.

Основываясь на этом выводе, в этой статье PLAID сравнивается с важным базовым моментом, отсутствующим в статье: переупорядочением лексической системы. Обнаружено, что применение ColBERTv2 в качестве средства переупорядочения поверх исходного пула результатов BM25 обеспечивает лучший компромисс между эффективностью и результативностью в настройках с низкой задержкой. Эта работа подчеркивает важность тщательного выбора соответствующих исходных данных при оценке эффективности поискового механизма.

Премия почетного упоминания за лучшую статью

Почетную награду за лучший доклад на конференции получили исследователи из Шаньдунского университета (Циндао), Лейденского университета и Амстердамского университета. Победителем стала статья «Генераторный поиск как многовекторный плотный поиск».



Авторы статьи: У Шигуан, Вэй Венда, Чжан Мэнци, Чэнь Чжуминь, Ма Цзюнь, Жэнь Чжаочунь, Мартен де Рийке, Жэнь Пэнцзе

Адрес статьи: https://arxiv.org/pdf/2404.00684.

Бумага абстрактная : В этой статье релевантность запросов документов измеряется путем демонстрации того, что генеративный поиск и многовекторный плотный поиск используют одну и ту же структуру. В частности, они изучили уровень внимания и главу прогнозирования генеративного поиска, показав, что генеративный поиск можно понимать как частный случай многовекторного плотного поиска. Оба метода вычисляют корреляцию, вычисляя сумму произведений вектора запроса и вектора документа с матрицей выравнивания.

Затем исследователи изучили, как эту структуру можно применять в генеративном поиске, используя различные стратегии для расчета векторов токенов документов и матриц выравнивания. Для проверки выводов проводятся эксперименты, показывающие, что обе парадигмы демонстрируют сходство в сопоставлении терминов в своих матрицах выравнивания.

Награда «Проверено временем»

В этом году награда ACM SIGIR Time Test Award была присуждена исследованию объяснимых рекомендаций, опубликованному на SIGIR 2014 10 лет назад. Статья называлась «Явные факторные модели для объяснимых рекомендаций на основе анализа настроений на уровне фраз».



Авторы статьи: Чжан Юнфэн, Лай Гокунь, Чжан Минь, И Чжан, Лю Ицюнь, Ма Шаопин

Учреждение: Университет Цинхуа, Калифорнийский университет, Санта-Крус.

Ссылка на документ: https://www.cs.cmu.edu/~glai1/papers/yongfeng-guokun-sigir14.pdf.

Это исследование впервые определило проблему «интерпретируемых рекомендаций» и предложило соответствующие методы анализа настроений для решения этой технической задачи и играет ведущую роль в смежных областях.

Бумага абстрактная : Алгоритмы рекомендаций на основе совместной фильтрации (CF), такие как модели скрытых факторов (LFM), хорошо работают с точки зрения точности прогнозирования. Однако основные характеристики затрудняют объяснение пользователям результатов рекомендаций.

К счастью, поскольку онлайн-обзоры пользователей продолжают расти, информация, доступная для обучающих рекомендательных систем, больше не ограничивается числовыми рейтингами или характеристиками пользователя/предмета. Извлекая из обзоров явное мнение пользователей о различных аспектах продукта, можно получить более детальное понимание того, что волнует пользователей, что в дальнейшем открывает возможность давать объяснимые рекомендации.

В этой статье предлагается EFM (явная факторная модель) для создания интерпретируемых рекомендаций при сохранении высокой точности прогнозирования.

Исследователи сначала извлекают явные характеристики продукта и мнения пользователей, выполняя анализ настроений на уровне фраз на основе отзывов пользователей, а затем генерируют рекомендации и отказы на основе конкретных особенностей продукта, представляющих интерес для пользователей, и изученных скрытых функций. Кроме того, на основе модели генерируются интуитивно понятные объяснения на уровне функций, почему тот или иной элемент рекомендуется или не рекомендуется.

Результаты автономных экспериментов на нескольких реальных наборах данных показывают, что предложенная в этом исследовании структура превосходит конкурирующие базовые алгоритмы как в прогнозировании рейтингов, так и в задачах рекомендаций Top-K. Онлайн-эксперименты показывают, что подробные объяснения делают рекомендации и нерекомендации более влиятельными на покупательское поведение пользователей.

Премия молодого ученого

Премия ACM SIGIR для молодых ученых направлена ​​на признание исследователей, сыгравших важную роль в исследованиях в области поиска информации, создании научного сообщества и поощрении академического равенства. Она должна присуждаться молодым исследователям, получившим докторскую степень в течение 7 лет. Ай Цинъяо, доцент кафедры компьютерных наук Университета Цинхуа, и Ван Сян, профессор и научный руководитель Школы киберпространственной безопасности и больших данных Китайского университета науки и технологий, выиграли SIGIR 2024 Young Премия ученого.

Ай Циняо

Ай Циньяо — доцент кафедры компьютерных наук Университета Цинхуа. Его основные области исследований сосредоточены на поиске информации, машинном обучении и обработке естественного языка. Ключевым направлением исследований является исследование и разработка интеллектуальных систем поиска информации, включая обучение представлению информации, теорию оптимизации ранжирования, а также применение больших языковых моделей в интернет-поиске и рекомендациях, а также умном правосудии.

Ван Сян

Ван Сян — профессор и научный руководитель Школы киберпространственной безопасности и Школы больших данных Китайского университета науки и технологий. Научные интересы профессора Ван Сяна включают поиск информации, интеллектуальный анализ данных, а также надежный и объяснимый искусственный интеллект, особенно системы рекомендаций, графическое обучение и анализ социальных сетей.