소식

ACL 2024 수상: HuaTech에서 Oracle 해독에 관한 최고의 논문 중 하나인 GloVe Time Test Award

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

머신하트 편집부

참가자들은 이번 ACL 컨퍼런스에서 많은 것을 얻었습니다.

ACL 2024는 6일간 태국 방콕에서 개최됩니다.



ACL은 전산언어학 및 자연어 처리 분야 최고의 국제학술대회로 국제전산언어학회(International Association for Computational Linguistics)가 주최하고 매년 개최된다. ACL은 NLP 분야에서 학술 영향력 1위에 늘 자리해 왔으며, CCF-A 추천 컨퍼런스이기도 합니다.

올해로 62회째를 맞이하는 ACL 컨퍼런스에는 NLP 분야의 최신 저서가 400편 이상 접수됐다. 어제 오후 컨퍼런스에서는 최우수 논문과 기타 상을 발표했습니다. 이번에 최우수 논문상 7개(미출판 2개), 최우수 주제논문상 1개, 우수논문상 35개를 수상했다.

이 컨퍼런스에서는 또한 3개의 리소스 상, 3개의 사회적 영향 상, 2개의 타임 테스트 상을 수상했습니다.

또한, 이번 컨퍼런스에서 평생공로상은 뉴욕대학교 컴퓨터공학과 교수인 Ralph Grishman에게 돌아갔습니다.

다음은 구체적인 수상 정보입니다.

최고의 종이



논문 1: 미션: 불가능한 언어 모델

  • 저자: 줄리 칼리니, 이사벨 파파디미트리우, 리차드 푸트렐, 카일 마호월드, 크리스토퍼 포츠
  • 기관: 스탠포드 대학교, 캘리포니아 대학교, 어바인 캠퍼스, 텍사스 대학교 오스틴 캠퍼스
  • 논문 링크: https://arxiv.org/abs/2401.06416

논문 소개: Chomsky 등은 LLM(Large Language Model)의 학습 능력이 인간이 학습할 수도 있고 학습하지 않을 수도 있는 언어와 동일하다고 믿습니다. 그러나 이 주장을 뒷받침하는 발표된 실험적 증거는 거의 없습니다.

이 연구는 인간이 학습할 수 없는 언어를 합성할 목적으로 부자연스러운 단어 순서와 문법 규칙을 사용하여 영어 데이터를 체계적으로 변경하여 각각 설계된 다양한 복잡성의 합성 언어 세트를 개발했습니다.

이 연구에서는 이러한 "불가능한 언어"를 학습하는 GPT-2 소형 모델의 능력을 평가하기 위해 광범위한 평가 실험을 수행했으며 각 언어의 학습 과정을 비교하기 위해 훈련 전반에 걸쳐 다양한 단계에서 이러한 평가를 수행했습니다. 이번 연구의 핵심 발견은 GPT-2가 영어에 비해 '불가능한 언어'를 배우기 어렵다는 것이며, 이는 촘스키 등의 주장에 도전하는 것입니다.

더 중요한 것은 이 연구에서 이 접근 방식이 다양한 LLM 아키텍처를 다양한 "불가능한 언어"에서 테스트하여 LLM이 인지 및 유형학적 조사 도구로 사용될 수 있는 방법을 이해할 수 있도록 하는 유익한 탐구 라인이 열릴 수 있기를 희망한다는 점입니다.



논문 2: 변압기에 민감한 기능이 어려운 이유는 무엇입니까?

  • 저자: 마이클 한, 마크 로핀
  • 기관: 자를란트 대학교
  • 논문 링크: https://arxiv.org/abs/2402.09963

개요: 실험적 연구에서는 PARITY와 같은 간단한 형식 언어를 계산하는 학습의 지속적인 어려움과 낮은 수준의 함수에 대한 편향과 같은 변환기의 다양한 학습성 편향과 한계가 확인되었습니다. 그러나 이론적 이해는 여전히 제한적이며 기존의 표현 이론은 현실적인 학습 능력을 과대평가하거나 과소평가합니다.

이 연구는 변환기 아키텍처에서 손실 환경이 입력 공간의 감도에 의해 제한된다는 것을 보여줍니다. 출력이 입력 문자열의 많은 부분에 민감한 변환기는 매개변수 공간의 격리된 지점에 위치하므로 감도 바이어스가 낮습니다. 일반화 .

이 연구는 이론이 낮은 민감도와 정도에 대한 일반화 편향, 패리티 길이 일반화의 어려움과 같은 변환기 학습 능력과 편향에 대한 광범위한 실험적 관찰을 통합한다는 것을 이론적 및 실험적으로 보여줍니다. 이는 변압기의 유도 바이어스를 이해하려면 원칙적인 표현력뿐만 아니라 손실 함수 환경도 연구해야 함을 의미합니다.



논문 3: 확산 모델을 사용한 Oracle Bone Language 해독

  • 저자: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han 등
  • 기관: 화중과학기술대학교, 애들레이드대학교, 안양사범대학교, 화남이공대학교
  • 논문 링크: https://arxiv.org/pdf/2406.00684

논문 소개: OBS(Oracle Bone Script)는 약 3,000년 전 중국 상왕조에서 유래되었으며 언어 역사의 초석이며 기존의 많은 문자 체계보다 앞서 있습니다. 수천 개의 비문이 발견되었음에도 불구하고 수많은 신탁 뼈가 해독되지 않은 채 남아 있어 이 고대 언어를 신비의 장막으로 덮고 있습니다. 현대 AI 기술의 출현으로 Oracle 해독을 위한 새로운 분야가 열렸고, 대용량 텍스트 말뭉치에 크게 의존하는 기존 NLP 방법에 대한 도전이 제기되었습니다.

본 논문에서는 Oracle 해독에 최적화된 확산 모델인 OBSD(Oracle Bone Script Decipher)를 이미지 생성 기술을 활용하여 개발하는 새로운 방법을 소개합니다. OBSD는 조건부 확산 전략을 활용하여 Oracle 해독을 위한 중요한 단서를 생성하고 고대 언어에 대한 AI 지원 분석의 새로운 방향을 열었습니다. 연구진은 효율성을 검증하기 위해 오라클 데이터셋을 대상으로 광범위한 실험을 진행했고 정량적 결과를 통해 OBSD의 효율성을 입증했다.



논문 4: 암기 프로필의 인과 추정

  • 작곡: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
  • 기관: 캠브리지 대학교, ETH 취리히
  • 논문 링크: https://arxiv.org/pdf/2406.04327

논문 소개: 언어 모델의 기억을 이해하는 것은 모델의 훈련 역학을 연구하거나 저작권 침해를 예방하는 것과 같은 실용적이고 사회적 의미를 갖습니다. 이전 연구에서는 기억을 "인스턴스를 사용한 훈련"과 "해당 인스턴스를 예측하는 모델의 능력" 사이의 인과관계로 정의했습니다. 이 정의는 반사실적, 즉 모델이 인스턴스를 보지 못했다면 어떤 일이 일어났을지 관찰하는 능력에 의존합니다. 기존 방법은 그러한 반사실적에 대한 계산적으로 효율적이고 정확한 추정을 제공하는 데 어려움을 겪고 있습니다. 또한 이러한 방법은 일반적으로 특정 모델 인스턴스의 메모리보다는 모델 아키텍처의 메모리를 추정합니다.

이 논문은 계량경제학적 차이 차이 설계를 기반으로 메모리를 추정하는 새롭고 원칙적이며 효율적인 접근 방식을 제안하여 중요한 격차를 메웁니다. 이 방법을 사용하면 연구자들은 모델의 메모리 프로필, 즉 훈련 과정 중 메모리 추세를 설명하기 위해 전체 훈련 과정에서 소수의 인스턴스에 대한 모델 동작만 관찰합니다. Pythia 모델 모음을 사용한 실험에서 그들은 메모리가 (i) 더 큰 모델에서 더 강하고 지속적이고, (ii) 데이터 순서와 학습 속도에 의해 결정되며, (iii) 다양한 모델 크기 추세에 걸쳐 안정적이라는 것을 발견했습니다. 더 큰 모델의 기억은 더 작은 모델에서 예측할 수 있습니다.



논문 5: Aya 모델: 지침이 미세 조정된 개방형 액세스 다국어 언어 모델

  • 저자: Ahmet Üstün, Viraat Aryabumi, Zheng Xin Yong, Wei-Yin Ko 등
  • 기관 : Cohere, Brown University 등
  • 논문 링크: https://arxiv.org/pdf/2402.07827

논문 소개: 대규모 언어 모델(LLM)의 최근 혁신은 소수의 데이터가 풍부한 언어에 초점을 맞췄습니다. 돌파구를 어떻게 다른 언어를 넘어 확장할 수 있습니까? 이 연구에서는 101개 언어에 대한 지침을 따르는 대규모 다국어 생성 언어 모델인 Aya를 소개합니다. 이 중 50% 이상이 리소스가 부족한 것으로 간주됩니다. Aya는 대부분의 작업에서 mT0 및 BLOOMZ보다 성능이 뛰어나며 두 배 더 많은 언어를 처리합니다.

또한, 이 연구는 다국어 평가의 최첨단 기술을 99개 언어로 확장하는 광범위한 새로운 평가 제품군을 도입합니다. 마지막으로, 이 연구는 최적의 미세 조정된 혼합물 구성, 데이터 가지치기, 모델 독성, 편향 및 안전성에 대한 자세한 조사를 제공합니다.



논문 6: 반지도 신경 원시 언어 재구성

  • 저자: Liang Lu, Peirong Xie, David R. Mortensen
  • 기관: 서던캘리포니아대학교 CMU
  • 논문 링크: https://arxiv.org/pdf/2406.05930

수상 이유: 이 획기적인 연구는 역사 언어학에서 프로토타입 언어 재구성 작업을 반자동화하여 새로운 반지도 아키텍처를 제안하는 것을 목표로 합니다. 이 방법은 "모국어-프로토타입" 재구성에 "프로토타입-원어민 언어" 반영 프로세스를 도입함으로써 이전 지도 방법보다 성능이 뛰어납니다. 이 논문은 신경 인코더 및 디코더와 같은 현대 계산 모델이 언어학에 어떻게 기여할 수 있는지 보여주는 좋은 예입니다.



논문 7: 자연어 만족성: 문제 분포 탐색 및 변환기 기반 언어 모델 평가(미발표)

  • 작곡: Tharindu Madusanka, Ian Pratt-Hartmann, Riza Batista-Navarro

수상 이유: 이 논문은 논리적 추론을 위한 합성 평가 데이터 세트를 명확하게 설명합니다. 이는 어떤 능력이 측정되고 있는지 명확하지 않은 대규모 추론 데이터 세트를 효과적으로 보완합니다. 이론적으로 일부 하위 집합이 다른 하위 집합보다 더 어려울 것으로 예상하는 이유가 실제로 있으며 이러한 기대는 논문에서 검증되었습니다. 각 카테고리 내에서 저자는 정말 어려운 사례를 샘플링하는 데 특별한 주의를 기울입니다.

시간 테스트를 거친 상

ACL Time Test Award는 자연어 처리 및 컴퓨터 언어학 분야에 장기적인 영향을 미친 명예 논문에 수여되며, 10년 전(2014년)과 25년 전(1999년)으로 나누어집니다. 매년 2편의 논문이 수여됩니다.



논문 1: GloVe: 단어 표현을 위한 전역 벡터

  • 저자: Jeffrey Pennington, Richard Socher, Christopher D. Manning
  • 기관: 스탠포드 대학교
  • 논문 링크: https://aclanthology.org/D14-1162.pdf

소개: 단어의 벡터 공간 표현을 학습하는 방법은 벡터 산술을 사용하여 세분화된 의미론적 및 구문론적 규칙을 포착하는 데 성공했지만 구문 규칙은 여전히 ​​불투명합니다. 본 연구에서는 단어 벡터에 구문 규칙이 나타나기 위해 모델이 어떤 속성을 가져야 하는지 분석하고 명확히 합니다.

본 연구에서는 단어의 벡터 표현을 학습하도록 설계된 새로운 전역 로그 선형 회귀 모델인 GloVe를 제안합니다. 이 모델은 전역 행렬 분해와 로컬 컨텍스트 창 방법의 장점을 결합합니다.

GloVe는 단어 유추 작업에서 75%의 최고 성능을 달성했으며 단어 유사성 작업 및 명명된 엔터티 인식에서 관련 모델을 능가했습니다.

수상 이유: 워드 임베딩은 2013년부터 2018년까지 자연어 처리(NLP)를 위한 딥 러닝 방법의 초석이었으며 계속해서 중요한 영향력을 행사하고 있습니다. NLP 작업의 성능을 향상시킬 뿐만 아니라 단어 유사성 및 유추와 같은 계산 의미론에도 중요한 영향을 미칩니다. 가장 영향력 있는 두 가지 단어 임베딩 방법은 아마도 Skip-gram/CBOW와 GloVe일 것입니다. 스킵그램과 비교하여 GloVe는 나중에 제안되었다. 상대적인 장점은 개념적 단순성에 있으며, 단순화된 언어 모델링 관점에서 매개변수 집합으로 간접적으로 사용하는 것이 아니라 단어 간의 분포 특성을 직접 기반으로 벡터 공간 유사성을 최적화합니다.





논문 2: 분포 유사성 측정

  • 저자 : 릴리안 리
  • 기관: 코넬대학교
  • 논문 링크: https://aclanthology.org/P99-1004.pdf

논문 소개: 저자는 보이지 않는 동시 발생 사건의 확률 추정치를 향상시키기 위한 목적으로 분포 유사성 측정을 연구합니다. 이들의 기여는 세 가지입니다: 광범위한 측정값의 경험적 비교, 포함된 정보를 기반으로 한 유사성 기능 분류, 기본 에이전트 분포를 평가하는 데 탁월한 새로운 기능 도입.



평생공로상

ACL의 평생 공로상은 Ralph Grishman에게 수여되었습니다. Ralph Grishman은 뉴욕대학교 컴퓨터공학과 교수로 자연어 처리(NLP) 분야 연구에 주력하고 있습니다. 그는 정보 추출(IE)에 지대한 공헌을 하고 해당 분야의 발전을 촉진한 프로테우스 프로젝트(Proteus Project)의 창립자입니다.



그는 또한 문장 분할, 명명된 엔터티 주석, 시간 표현 주석 및 정규화, 품사 태깅, 부분 구문 분석 및 공동 분석과 같은 다중 언어 분석 구성 요소를 제공하는 널리 사용되는 정보 추출 도구인 JET(Java Extraction Toolkit)를 개발했습니다. 분석을 말합니다. 이러한 구성 요소는 다양한 애플리케이션에 따라 파이프라인으로 결합될 수 있으며, 단일 문장의 대화형 분석이나 전체 문서의 일괄 분석에 사용할 수 있습니다. 또한 JET는 문서 주석 및 표시를 위한 간단한 도구를 제공하며 ACE(자동 콘텐츠 추출) 사양에 따라 엔터티, 관계 및 이벤트를 추출하는 완전한 프로세스를 포함합니다.

Grishman 교수의 작업은 NLP의 여러 핵심 문제를 다루며 현대 언어 처리 기술에 지대한 영향을 미쳤습니다.

35개의 뛰어난 논문

  • 논문 1: 양자화된 측면 튜닝: 양자화된 대규모 언어 모델의 빠르고 메모리 효율적인 튜닝
  • 작곡: Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Qing Li, Yong Jiang, Zhihao Jia
  • 기관: CMU, Tsinghua University, Pengcheng Laboratory 등
  • 논문 링크: https://arxiv.org/pdf/2401.07159
  • 논문 2: L-Eval: 긴 상황 언어 모델에 대한 표준화된 평가 실시
  • 작곡: Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong, Xipeng Qiu
  • 기관: 푸단대학교, 홍콩대학교, 일리노이대학교 어바나-샴페인 캠퍼스, 상하이 AI 연구소
  • 논문 링크: https://arxiv.org/abs/2307.11088
  • 논문 3: 대규모 언어 모델의 편견 제거를 위한 인과 기반 능동적 학습
  • 논문 링크: https://openreview.net/forum?id=idp_1Q6F-lC
  • 논문 4: CausalGym: 언어 작업에 대한 인과 해석 방법 벤치마킹
  • 저자: 아리아만 아로라, 댄 주라프스키, 크리스토퍼 포츠
  • 기관: 스탠포드 대학교
  • 논문 링크: https://arxiv.org/abs/2402.12560
  • 논문 5: 환각에 빠지지 말고 기권하세요: 다중 LLM 협업을 통한 LLM 지식 격차 식별
  • 작곡: Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Vidhisha Balachandran, Yulia Tsvetkov
  • 기관: 워싱턴대학교, 캘리포니아대학교, 버클리대학교, 홍콩과기대학교, CMU
  • 논문 링크: https://arxiv.org/abs/2402.00367
  • 질문 6: 음성 기반 모델과 대규모 언어 모델을 활용한 음성 번역: 무엇이 있고 무엇이 빠졌는가?
  • 저자: 마르코 가이도, 사라 파피, 마테오 네그리, 루이사 벤티볼리
  • 기관: 이탈리아 브루노 케슬러 재단
  • 논문 링크: https://arxiv.org/abs/2402.12025
  • 논문 7: NLP는 추출적이어야 합니까?
  • 저자: 스티븐 버드
  • 기관: 찰스 다윈 대학교
  • 논문 링크: https://drive.google.com/file/d/1hvF7_WQrou6CWZydhymYFTYHnd3ZIljV/view
  • 논문 8: IRCoder: 중간 표현을 통해 언어 모델을 강력한 다국어 코드 생성기로 만듭니다.
  • 저자: Indraneil Paul, Goran Glavaš, Iryna Gurevych
  • 기관: 다름슈타트 공과대학교 등
  • 논문 링크: https://arxiv.org/abs/2403.03894
  • 문서 9: MultiLegalPile: 689GB 다국어 법률 자료
  • 저자: Matthias Stürmer, Veton Matoshi 등
  • 소속기관 : 베른대학교, 스탠포드대학교 등
  • 논문 링크: https://arxiv.org/pdf/2306.02069
  • 제10장: PsySafe: 심리 기반 공격, 방어 및 다중 에이전트 시스템 안전 평가를 위한 종합 프레임워크
  • 작사: Zaibin Zhang, Yongting Zhang, Lijun Li, Hongzhi Gao, Lijun Wang, Huchuan Lu, Feng Zhao, Yu Qiao, Jing Shao
  • 기관: 중국 과학 기술 대학, 대련 공과 대학 상하이 인공 지능 연구소
  • 논문 링크: https://arxiv.org/pdf/2401.11880
  • 질문 11: 대규모 언어 모델이 좋은 감정적 지지자가 될 수 있을까? 감정적 지지 대화에 대한 선호 편향 완화
  • 저자 : 강동진, 김성환 등
  • 기관 : 연세대 등
  • 논문 링크: https://arxiv.org/pdf/2402.13211
  • 제12문: 정치적 나침반 또는 회전하는 화살? 대규모 언어 모델에서 가치와 의견에 대한 보다 의미 있는 평가를 향해
  • 저자: Paul Röttger, Valentin Hofmann 등
  • 기관 : 보코니대학교, 앨런인공지능연구소 등
  • 논문 링크: https://arxiv.org/pdf/2402.16786
  • 논문 13: 동일한 작업, 더 많은 토큰: 입력 길이가 대규모 언어 모델의 추론 성능에 미치는 영향
  • 저자: 모쉬 레비(Mosh Levy), 알론 자코비(Alon Jacoby), 요아브 골드버그(Yoav Goldberg)
  • 기관: Bar-Ilan 대학교, Allen 인공 지능 연구소
  • 논문 링크: https://arxiv.org/pdf/2402.14848
  • 논문 14: 라마는 다중 언어 변환기의 잠재 언어에서 작동합니까?
  • 저자: Chris Wendler, Veniamin Veselovsky 등
  • 기관: Ecole Polytechnique Fédérale de Lausanne
  • 논문 링크: https://arxiv.org/pdf/2402.10588
  • 논문 15: 유머에 대해 진지하게 생각하기: 재미있지 않은 대규모 언어 모델을 사용하여 유머 데이터세트 만들기
  • 저자: Zachary Horvitz, Jingru Chen 등
  • 기관: 컬럼비아 대학교, Ecole Polytechnique Fédérale de Lausanne
  • 논문 링크: https://arxiv.org/pdf/2403.00794
  • 논문 16: 방언 수준 추정으로 다방어 아랍어 데이터세트의 주석 간 일치를 예측합니다.
  • 저자: Amr Keleg, Walid Magdy, Sharon Goldwater
  • 기관: 에딘버러 대학교
  • 논문 링크: https://arxiv.org/pdf/2405.11282
  • 논문 17: G-DlG: 기계 번역을 위한 기울기 기반 Dlverse 및 고품질 명령어 데이터 선택을 향하여
  • 작곡: Xingyuan Pan, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Shanbo Cheng
  • 조직: 바이트댄스 리서치
  • 논문 링크: https://arxiv.org/pdf/2405.12915
  • 논문 18: 미디어 프레이밍: 여러 분야에 걸친 컴퓨터 접근 방식의 유형 및 조사
  • 저자: Yulia Otmakhova, Shima Khanehzar, Lea Frermann
  • 논문 링크: https://openreview.net/pdf?id=9AV_zM56pwj
  • 논문 19: SPZ: 알츠하이머병 탐지를 위한 구역 혼합을 사용한 의미론적 교란 기반 데이터 증강 방법
  • 저자: FangFang Li, Cheng Huang, PuZhen Su, Jie Yin
  • 논문 20: 탐욕만 있으면 됩니다: 토크나이저 추론 방법의 평가
  • 기관: MIT, 네게브 벤구리온 대학교
  • 저자: Omri Uzan, Craig W.Schmidt, Chris Tanner, Yuval Pinter
  • 논문 링크: https://arxiv.org/abs/2403.01289
  • 제21장: 언어 복잡성과 음성 인식 정확도: 철자법 복잡성은 해롭지만 음운론적 복잡성은 그렇지 않다
  • 소속 : 노트르담대학교(미국)
  • 저자: 치히로 타쿠치, 데이비드 치앙
  • 논문 링크: https://arxiv.org/abs/2406.09202
  • 논문 22: 대조 활성화 추가를 통한 Llama 2 조종
  • 기관: Anthropic, 하버드 대학교, 괴팅겐 대학교(독일), 인간 호환 AI 센터
  • 작곡: Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan J Hubinger, Alexander Matt Turner
  • 논문 링크: https://arxiv.org/abs/2312.06681
  • 논문 23: EconAgent: 거시 경제 활동 시뮬레이션을 위한 대규모 언어 모델 기반 에이전트
  • 소속: 청화대학교-심천국제대학원, 청화대학교
  • 저자: Nian Li, Chen Gao, Mingyu Li, Yong Li, Qingmin Liao
  • 논문 링크: https://arxiv.org/abs/2310.10436
  • 제24장: M4LE: 대규모 언어 모델을 위한 다중 기능 다중 범위 다중 작업 다중 도메인 장기 컨텍스트 평가 벤치마크
  • 기관: 홍콩중문대학교, 화웨이 노아의 방주 연구소, 홍콩과기대학교
  • 작곡: 와이중관, 젱싱샨, 왕위페이, 순순, 리량유, 리펑상, 쿤류, 캄파이웡
  • 논문 링크: https://arxiv.org/abs/2310.19240
  • 논문 25: 확인 이유: 인수 구조를 통한 인과관계 검증
  • 작곡: Jiasheng Si, Yibo Zhao, Yingjie Zhu, Haiyang Zhu, Wenpeng Lu, Deyu Zhou
  • 논문 26: 데이터 주석을 위한 효율적이고 통계적인 품질 추정에 대하여
  • 작곡: Jan-Christoph Klie, Juan Haladjian, Marc Kirchner, Rahul Nair
  • 기관: UKP Lab, TU Darmstadt, Apple
  • 논문 링크: https://arxiv.org/pdf/2405.11919
  • 논문 27: 에뮬레이트된 불일치: 대규모 언어 모델을 위한 안전 정렬은 역효과를 낳을 수 있습니다!
  • 작곡: Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao
  • 조직: 상하이 인공 지능 연구소
  • 논문 링크: https://arxiv.org/pdf/2402.12343
  • 논문 28: IndicLLMSuite: 인도어용 사전 훈련 및 미세 조정 데이터 세트 생성을 위한 청사진
  • 저자: Mohammed Safi Ur Rahman Khan, Priyam Mehta, Ananth Sankar 등
  • 기관: AI4Bharat의 Nilekani Center, Indian Institute of Technology(Madras), Microsoft 등
  • 논문 링크: https://arxiv.org/pdf/2403.06350
  • 논문 29: MultiPICo: 다국어 관점주의 코퍼스
  • 저자: Silvia Casola, Simona Frenda, Soda Marem Lo, Erhan Sezerer 등
  • 기관: 토리노대학교, aequa-tech, Amazon Development Center(이탈리아) 등
  • 번역: https://assets.amazon.science/08/83/9b686f424c89b08e8fa0a6e1d020/multipico-multilingual-perspectivist-irony-corpus.pdf
  • 논문 30: MMToM-QA: 다중 모드 정신 이론 질문 답변
  • 저자 : Chuanyang Jin, Yutong Wu, Jing Cao, jiannan Xiang 등
  • 기관: 뉴욕대학교, 하버드대학교, MIT, 캘리포니아대학교, 샌디에고대학교, 버지니아대학교, 존스홉킨스대학교
  • 논문 링크: https://arxiv.org/pdf/2401.08743
  • 논문 31: MAP는 아직 죽지 않았습니다: 타락성을 조건화하여 진정한 언어 모델 모드 발견
  • 저자: 데이비스 요시다, 카르틱 고얄, 케빈 김펠
  • 기관: 시카고 토요타 공과대학, 조지아 공과대학
  • 논문 링크: https://arxiv.org/pdf/2311.08817
  • 논문 32: NounAtlas: 명목상 의미론적 역할 라벨링의 격차 메우기
  • 저자: Roberto Navigli, Marco Lo Pinto, Pasquale Silvestri 등
  • 논문 33: 지구는 평평하기 때문에.. 설득대화를 통해 잘못된 정보에 대한 LLM의 신념 조사
  • 저자: Rongwu Xu, Brian S. Lin, Shujian Yang, Tiangi Zhang 등
  • 기관: 청화대학교, 상하이교통대학교, 스탠포드대학교, 난양기술대학교
  • 논문 링크: https://arxiv.org/pdf/2312.09085
  • 논문 34: 실제 대화를 시작해보자: 대면 대화를 위한 음성 대화 모델
  • 저자 : 박세진, 김채원, 나형섭, 김민수 등
  • 기관: 한국과학기술원(KAIST)
  • 논문 링크: https://arxiv.org/pdf/2406.07867
  • 논문 35: 단어 임베딩은 언어 모델의 조종자입니다
  • 작곡: Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek F. Abdelzaher, Heng Ji
  • 기관: 일리노이 대학교 어바나-샴페인 캠퍼스
  • 논문 링크: https://arxiv.org/pdf/2305.12798

최우수 주제논문상



논문: OLMo: 언어 모델 과학 가속화

  • 저자: Dirk Groeneveld, Iz Beltagy 등
  • 기관: Allen Institute for Artificial Intelligence, University of Washington 등
  • 논문 링크: https://arxiv.org/pdf/2402.00838

인용: 이 작업은 대규모 언어 모델 교육의 투명성과 재현성을 향한 중요한 단계이며, 발전을 이루려는 커뮤니티의 노력(또는 적어도 업계 거대 기업이 아닌 다른 연구자가 기여할 수 있도록 하는 데)의 한 단계입니다.

자원 논문상

3편의 논문이 Resource Paper Award를 수상했습니다.

논문 1: Latxa: 바스크어용 개방형 언어 모델 및 평가 제품군

소속 : 스페인 바스크 지방대학교

  • 작곡: Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa
  • 링크: https://arxiv.org/pdf/2403.20266

수상 이유: 이 논문은 코퍼스 수집 및 데이터 세트 평가에 대한 세부 사항을 설명합니다. 바스크어 연구와 관련이 있지만 이 방법론은 자원이 적은 다른 언어에 대한 대규모 모델 구축으로 확장될 수 있습니다.

논문 2: Dolma: 언어 모델 사전 훈련 연구를 위한 3조 토큰의 공개 코퍼스

  • 기관: Allen Institute for Artificial Intelligence, University of California, Berkeley 등
  • 저자: 루카 솔다이니(Luca Soldaini), 로드니 키니(Rodney Kinney) 등
  • 링크: https://arxiv.org/abs/2402.00159

수상 이유: 이 논문은 대규모 언어 모델을 훈련하기 위한 데이터 세트를 준비할 때 데이터 관리의 중요성을 보여줍니다. 이는 커뮤니티 내의 다양한 사람들에게 매우 귀중한 통찰력을 제공합니다.

논문 3: AppWorld: 대화형 코딩 에이전트 벤치마킹을 위해 제어 가능한 앱과 사람의 세계

  • 기관: 뉴욕주립대 스토니브룩, 앨런 인공지능연구소 등
  • 저자: Harsh Trivedi, Tushar Khot 등
  • 링크: https://arxiv.org/abs/2407.18901

수상 이유: 이 연구는 대화형 환경 시뮬레이션 및 평가를 구축하는 데 매우 중요하고 놀라운 작업입니다. 이는 모든 사람이 커뮤니티를 위한 보다 하드코어한 동적 벤치마크를 생성하도록 장려할 것입니다.

사회적 영향 상

3편의 논문이 Social Impact Award를 수상했습니다.

제1문: Johnny가 LLM을 설득하여 탈옥하도록 하는 방법: LLM을 인간화하여 AI 안전에 도전하는 설득 재고

  • 저자: Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang 등
  • 기관: 버지니아 공대, 중국 인민 대학교, 캘리포니아 대학교, 데이비스, 스탠포드 대학교
  • 논문 링크: https://arxiv.org/pdf/2401.06373

수상 이유: 이 기사에서는 AI 보안(탈옥)이라는 주제를 탐구하고 사회 과학 연구 분야에서 개발된 방법을 연구합니다. 이 연구는 매우 흥미롭고 지역사회에 중대한 영향을 미칠 가능성이 있습니다.

논문 2: DIALECTBENCH: 방언, 변종 및 밀접하게 관련된 언어에 대한 NLP 벤치마크

  • 저자: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja 등
  • 기관: 조지 메이슨 대학교, 워싱턴 대학교, 노트르담 대학교, RC Athena
  • 논문 링크: https://arxiv.org/pdf/2403.11009

수상 이유: 방언 변형은 NLP 및 인공 지능 분야에서 잘 연구되지 않은 현상입니다. 그러나 언어와 사회의 관점에서 볼 때 그 연구는 매우 높은 가치를 가지며 응용에 있어 중요한 의미를 갖는다. 본 논문은 LLM 시대에 이러한 문제를 연구하기 위한 매우 새로운 벤치마크를 제안합니다.

논문 3: 기도 후에 맥주를 마시며 대규모 언어 모델에서 문화적 편견을 측정해 볼까요?

  • 저자: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
  • 기관: 조지아 공과대학교
  • 논문 링크: https://arxiv.org/pdf/2305.14456

수상 이유: 이 기사는 LLM 시대의 중요한 문제인 문화적 편견을 보여줍니다. 이 논문은 아랍어 문화와 언어 환경을 연구하며 그 결과 LLM을 설계할 때 문화적 차이를 고려해야 함을 보여줍니다. 따라서 동일한 연구를 다른 문화권에서도 재현하여 다른 문화권도 이 문제의 영향을 받는지 일반화하고 평가할 수 있습니다.