2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
새로운 지혜 보고서
편집자: 편집부
[새로운 지혜 소개]연례 최고의 NLP 컨퍼런스인 ACL이 최종 우승 논문을 발표했습니다. 올해는 총 7편의 논문이 최우수 논문상을 수상했으며, 시간 테스트상은 스탠포드 글로브(Stanford GloVe)와 코넬 대학교 유사성 측정(Silarity Measure)이 수상했다. 또한 최우수 주제상, 최우수 사회 영향상, 최우수 자원상, 지역 의장상, 우수 논문상 등이 있습니다.
ACL 2024 어워드가 드디어 나왔습니다!
총 7편의 최우수 논문, 35편의 우수 논문을 비롯해 Time Test Award, SAC Award, Best Theme Paper, Best Resource Paper Award 등이 발표되었습니다.
7개의 최고의 논문 중 Deciphering Oracle Bone Language with Diffusion Models가 모두 중국 팀에 의해 완성되었다는 점은 언급할 가치가 있습니다.
올해로 제26회 국제컴퓨터언어학학회(International Conference on Computational Linguistics, ACL)가 지난 8월 11일부터 16일까지 태국 방콕에서 개최됐다.
ACL 2024에 제출된 총 논문 수는 2023년과 거의 동일하며 약 5,000편이었으며 그 중 940편이 채택되었습니다.
이번 ACL은 총 72개의 SAC, 716개의 AC, 4208명의 리뷰어를 포함해 역대 최대 규모다.
검색 논문 975편, JCL 6편, TACL 31편, 기조 연설 3편, 패널 1편.
전체 컨퍼런스에는 워크숍 18개, 튜토리얼 6개, 데모 38개, SRW 논문 60개도 포함되었습니다.
논문저자의 구체적인 투고내역은 다음과 같습니다.
1/2 논문 최다 제출 : 10,333명의 학자가 1편, 2,130명이 2편을 제출
소수의 사람들이 여러 논문을 제출했습니다. 3명의 저자가 18편의 논문을 제출했고, 6명이 19편의 논문을 제출했으며, 18명이 20편 이상의 논문을 제출했습니다.
올해는 어떤 팀이 상을 받았는지 함께 살펴볼까요?
7개의 최고의 논문
논문 1: 확산 모델을 사용한 Oracle Bone Language 해독
작곡: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu
기관: 화중과학기술대학교, 애들레이드대학교, 안양사범대학교, 화남이공대학교
논문 주소: https://arxiv.org/pdf/2406.00684
제목에서 알 수 있듯이 중국 팀은 AI를 사용하여 확산 모델의 도움으로 Oracle(OBS)을 해독하는 매우 흥미롭고 가치 있는 작업을 수행했습니다.
갑골문은 약 3,000년 전 중국 상나라에서 유래되었으며 언어 역사의 초석입니다.
수천 개의 비문이 발견되었지만 갑골문의 비문 대부분은 해독되지 않은 상태로 남아 있어 이 고대 언어에 신비의 장막을 드리우고 있습니다.
논문에서 저자는 이미지를 활용해 AI를 생성하는 새로운 방법, 특히 'OBSD(Oracle Bone Script Decipher)' 개발을 소개한다.
조건부 확산에 기반한 전략을 사용하여 OBSD는 중요한 해독 단서를 생성하고 고대 언어에 대한 AI 지원 분석을 위한 새로운 길을 열었습니다.
연구진은 그 유효성을 검증하기 위해 오라클 데이터셋을 대상으로 다수의 실험을 진행했고 정량적 결과를 통해 OBSD의 유효성을 입증했다.
论文2:자연어 만족성: 문제 분포 탐색 및 Transformer 기반 언어 모델 평가
(아직 사전인쇄물이 제출되지 않았습니다)
논문 3: 암기 프로필의 인과 추정
작곡: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
기관: 캠브리지 대학교, ETH 취리히
논문 주소: https://arxiv.org/pdf/2406.04327
LLM의 기억을 이해하는 것은 모델 훈련 역학을 연구하거나 저작권 침해를 예방하는 등 실무와 사회에 중요한 의미를 갖습니다.
이전 연구에서는 메모리를 해당 인스턴스에 대한 교육을 통해 해당 인스턴스를 예측하는 모델의 능력에 대한 인과적 반응으로 정의했습니다.
이 정의는 반사실적, 즉 모델이 인스턴스를 보지 못했다면 어떤 일이 일어났을지 관찰할 수 있다는 점에 의존합니다.
그러나 기존 방법은 일반적으로 특정 모델 인스턴스에 대한 메모리를 추정하기보다는 모델 아키텍처를 목표로 하므로 계산적으로 효율적이고 정확한 반사실적 추정을 제공하기 어렵습니다.
이 연구는 저자가 계량경제학의 차이 차이 설계를 기반으로 메모를 추정하는 원칙적이고 효율적인 새로운 방법을 제안함으로써 중요한 격차를 메웁니다.
이 방법을 사용하면 전체 학습 과정에서 소수의 인스턴스의 동작을 관찰함으로써 모델의 메모리 프로파일, 즉 학습 과정 전반에 걸친 모델의 메모리 추세를 설명할 수 있습니다.
연구원들은 Pythia 모델 제품군을 사용한 실험에서 다음을 발견했습니다.
(1) 대형 모델은 더 강력하고 내구성 있는 메모리를 가지고 있습니다.
(2) 데이터 순서와 학습률에 따라 결정됩니다.
(3) 다양한 크기의 모델에는 안정적인 추세가 있으므로 큰 모델의 메모리는 작은 모델의 메모리만큼 예측 가능합니다.
논문 4: Aya 모델: 지침이 미세 조정된 개방형 액세스 다국어 언어 모델
작곡: Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas 무엔니호프, 마르지에 파데, 줄리아 크로이처, 사라 후커
기관: Cohere For AI, Brown University, Cohere, Cohere For AI Community, Carnegie Mellon University, MIT
논문 주소: https://arxiv.org/pdf/2402.07827
올해 2월 스타트업 Cohere는 101개 이상의 언어를 포괄하는 Aya라는 새로운 오픈소스 대규모 언어 생성 모델을 출시했습니다.
Aya 모델 언어 모델 적용 범위는 mT0 및 BLOOMZ를 능가하여 기존 오픈 소스 모델의 두 배 이상이라는 점을 언급할 가치가 있습니다.
인간 평가 점수는 75%에 달하며, 다양한 모의 승률 테스트 점수는 80~90%입니다.
이 프로젝트는 119개국에서 온 3,000명 이상의 독립적인 연구자들을 모아 시작되었습니다.
또한 연구원들은 114개 언어를 포괄하는 5억 1,300만 개의 데이터를 포함하는 현재까지 최대 규모의 다국어 안내 미세 조정 데이터 세트를 공개했습니다.
논문 5: 미션: 불가능한 언어 모델
저자: 줄리 칼리니, 이사벨 파파디미트리우, 리차드 푸트렐, 카일 마호월드, 크리스토퍼 포츠
기관: 스탠포드 대학교, 캘리포니아 대학교, 어바인 캠퍼스, 텍사스 대학교 오스틴 캠퍼스
논문 주소: https://arxiv.org/pdf/2401.06416
Chomsky와 다른 사람들은 LLM이 인간이 배울 수 있는 언어와 불가능한 언어를 똑같이 배울 수 있다고 직설적으로 밝혔습니다.
그러나 이 주장을 뒷받침하는 발표된 실험적 증거는 거의 없습니다.
이를 위해 연구자들은 영어 데이터를 체계적으로 변경하고 부자연스러운 단어 순서와 문법 규칙을 사용하여 설계한 다양한 복잡성의 합성 "불가능한 언어" 세트를 개발했습니다.
이러한 언어는 불가능한 언어의 연속체에 놓여 있습니다. 한쪽 끝에는 무작위로 재배열된 영어와 같이 완전히 불가능한 언어가 있고, 다른 쪽 끝에는 단어 위치 계산 규칙에 기반한 것과 같이 언어적으로 불가능하다고 간주되는 언어가 있습니다. .
일련의 평가를 거친 후 GPT-2는 불가능한 언어를 배우기가 매우 어려워 핵심 아이디어에 도전합니다.
더 중요한 것은, 연구원들은 이 접근 방식이 다양한 유형의 언어를 학습하는 LLM의 능력에 대한 더 많은 연구로 이어져 인지 및 언어 유형 연구에서 LLM의 잠재적인 적용을 더 잘 이해할 수 있기를 희망한다는 것입니다.
논문 6: 반지도 신경 원시 언어 재구성
저자: Liang Lu, Peirong Xie, David R. Mortensen
기관: 카네기멜론대학교, 서던캘리포니아대학교
논문 주소: https://arxiv.org/pdf/2406.05930
기존 모국어 비교 및 재구성 작업에는 일반적으로 완전한 감독이 필요합니다.
그러나 과거 재구성 모델은 제한된 주석 데이터로 훈련할 때만 실용적인 가치가 있습니다.
이에 연구진은 준지도 역사 재구성 작업을 제안했다.
이 작업에서 모델은 소량의 레이블이 지정된 데이터(프로토타입이 있는 상동 세트)와 레이블이 지정되지 않은 대량의 데이터(프로토타입이 없는 상동 세트)에 대해서만 훈련하면 됩니다.
저자는 비교 재구성을 위한 신경 아키텍처인 DPD-BiReconstructor를 개발했는데, 여기에는 언어학자의 비교 방법에서 중요한 점이 포함되어 있습니다. 재구성된 단어는 하위 단어에서 재구성될 수 있을 뿐만 아니라 결정론적으로 변환될 수도 있습니다. 하위 단어로 돌아가기 .
우리는 이 아키텍처가 레이블이 지정되지 않은 동족 단어 세트를 활용하고 이 새로운 작업에서 기존 준지도 학습 기준을 능가할 수 있음을 보여줍니다.
논문 7: 변압기에 민감한 기능이 어려운 이유는 무엇입니까?
저자: 마이클 한, 마크 로핀
기관: 자를란트 대학교
논문 주소: https://arxiv.org/pdf/2402.09963
경험적 연구를 통해 Transformer 모델의 일련의 학습성 편향과 한계가 발견되었습니다. 예를 들어 간단한 형식 언어(예: PARITY)를 계산하는 학습의 어려움과 저차 함수를 사용하는 경향이 있습니다.
그러나 이론적 이해는 여전히 제한적이며, 기존 표현능력 이론은 실제 학습능력을 과대평가하거나 과소평가하고 있다.
연구원들은 Transformer 아키텍처에서 손실 환경이 입력 공간의 민감도에 의해 제한된다는 것을 입증했습니다.
출력이 입력 문자열의 여러 부분에 민감한 변환기 모델은 매개변수 공간에서 격리된 지점을 차지하므로 일반화에서 낮은 민감도 편향이 발생합니다.
이 연구는 최신 이론이 그라운드 감도 및 저차 함수에 대한 선호, 패리티 및 길이 문제의 어려움과 같은 Transformer 학습 능력 및 편견에 대한 경험적 관찰을 통합한다는 것을 이론적으로나 경험적으로 보여줍니다.
이는 변압기의 유도 바이어스를 이해하려면 원칙적인 표현력뿐만 아니라 손실 환경도 연구해야 함을 의미합니다.
2회 테스트 상
논문 1: GloVe: 단어 표현을 위한 전역 벡터(2014)
저자: 제프리 페닝턴, 리차드 소커, 크리스토퍼 매닝
기관: 스탠포드 대학교
논문 주소: https://nlp.stanford.edu/pubs/glove.pdf
단어 임베딩은 2013년부터 2018년까지 NLP를 위한 딥 러닝 방법의 초석이었으며 계속해서 큰 영향을 미치고 있습니다. NLP 작업의 성능을 향상시킬 뿐만 아니라 단어 유사성 및 유추와 같은 계산 의미론에도 상당한 영향을 미칩니다.
아마도 가장 영향력 있는 두 가지 단어 임베딩 방법은 Skip-gram/CBOW와 GloVe일 것입니다. Skip-gram과 비교하여 GloVe는 나중에 제안되었으며 언어 모델링을 단순화하는 관점이 아닌 단어의 분포 특성을 직접 기반으로 벡터 공간에서의 유사성을 최적화하는 개념적 단순성에 있습니다. 간접 최적화를 위한 매개변수 세트입니다.
논문 2: 분포 유사성 측정(1999)
저자 : 릴리안 리
기관: 코넬대학교
논문 주소: https://aclanthology.org/P99-1004.pdf
분포 유사성 측정을 연구하는 것은 보이지 않는 동시 발생 이벤트의 확률 추정을 향상시키는 것을 목표로 하며, 이는 단어 간의 유사성을 특성화하는 또 다른 방법과 동일합니다.
이 논문의 기여는 세 가지입니다. 다양한 측정값의 광범위한 경험적 비교, 유사성 함수에 포함된 정보를 기반으로 한 분류, 잠재적인 에이전트 분포를 평가하는 데 효과적인 새로운 기능의 도입입니다.
최고의 주제 논문 1개
논문: OLMo: 언어 모델 과학 가속화
작곡: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, 노아 A. 스미스, 한나네 하지시르지
기관: 앨런 인공지능연구소, 워싱턴대학교, 예일대학교, 뉴욕대학교, 카네기멜론대학교
논문 주소: https://arxiv.org/abs/2402.00838
이 작업은 대규모 언어 모델 훈련의 투명성과 재현성을 향상시키는 데 있어 중요한 진전입니다. 이는 커뮤니티가 필요한 진전을 이루기를 열망하는 것입니다(또는 적어도 업계 거대 기업 이외의 다른 기여자가 진전에 기여할 수 있도록 허용).
3 최고의 사회적 영향 상
1편: Johnny가 LLM을 설득하여 탈옥하도록 하는 방법: LLM을 인간화하여 AI 안전에 도전하는 설득 재고
작곡: Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia, Weiyan Shi
기관: 버지니아 공대, 중국 인민 대학교, 캘리포니아 대학교, 데이비스, 스탠포드 대학교
논문 주소: https://arxiv.org/abs/2401.06373
본 논문에서는 제한 우회라는 인공지능 보안 주제를 탐구합니다. 사회과학 연구 분야에서 개발된 방법을 검토합니다. 이 연구는 매우 흥미롭고 지역사회에 중대한 영향을 미칠 수 있는 잠재력을 갖고 있습니다.
제목2: DIALECTBENCH: 방언, 방언 종류 및 밀접하게 관련된 언어를 위한 NLP 벤치마크
작곡: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, David Chiang, Yulia Tsvetkov, Antonios Anastasopoulos
기관: 조지 메이슨 대학교, 워싱턴 대학교, 노트르담 대학교, RC Athena
논문 주소: https://arxiv.org/abs/2403.11009
방언 변형은 자연어 처리 및 인공 지능 분야에서 연구가 부족한 현상입니다. 그러나 그 연구는 언어학적, 사회적 관점뿐만 아니라 응용에 있어서도 중요한 의미를 갖는다는 점에서 큰 가치가 있습니다. 본 논문은 대규모 언어 모델 시대에 이 문제를 연구하기 위한 혁신적인 벤치마크를 제안합니다.
논문 3: 기도 후 맥주를 마시며 대규모 언어 모델에서 문화적 편견을 측정합니까?
저자: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
기관: 조지아 공과대학교
논문 주소: https://arxiv.org/abs/2305.14456
본 논문은 대규모 언어 모델 시대의 중요한 문제인 문화적 편견을 드러냅니다. 연구의 맥락은 아랍어 문화와 언어이지만, 결과는 대규모 언어 모델을 설계할 때 문화적 뉘앙스를 고려해야 함을 보여줍니다. 따라서 다른 문화권도 이 문제의 영향을 받는지 여부를 일반화하고 평가하기 위해 다른 문화권에 대해서도 유사한 연구를 수행할 수 있습니다.
3가지 최고의 자료 논문
논문 1: Latxa: 바스크어용 개방형 언어 모델 및 평가 제품군
작곡: Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa
기관: 바스크 지방 대학교
논문 주소: https://arxiv.org/abs/2403.20266
본 논문에서는 코퍼스 수집 및 평가 데이터세트에 대한 모든 세부 사항을 자세히 설명합니다. 바스크어를 연구했지만 이 접근 방식을 확장하여 자원이 적은 언어를 위한 대규모 언어 모델을 구축할 수 있습니다.
글2: Dolma: 언어 모델 사전 학습 연구를 위한 3조 개의 토큰으로 구성된 오픈 코퍼스
작곡: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert , Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, 한나네 하지쉬르지, 이즈 벨타기, 더크 그로네벨트, 제시 닷지, 카일 로
기관: Allen Institute for Artificial Intelligence, UC Berkeley, Carnegie Mellon University, Spiffy AI, MIT, University of Washington
논문 주소: https://arxiv.org/abs/2402.00159
이 문서에서는 대규모 언어 모델을 위한 데이터 세트를 준비할 때 데이터 큐레이션의 중요성을 설명합니다. 이는 커뮤니티 내의 광범위한 청중에게 도움이 될 수 있는 귀중한 통찰력을 제공합니다.
제목 3: AppWorld: 대화형 코딩 에이전트 벤치마킹을 위한 앱과 사람들의 제어 가능한 세계
작곡: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
기관: 뉴욕주립대학교 스토니브룩, 자를란트대학교 Allen 인공지능연구소
논문 주소: https://arxiv.org/abs/2407.18901
이는 인간-컴퓨터 상호 작용을 위한 시뮬레이터 및 평가 환경을 구축하려는 매우 인상적이고 중요한 시도입니다. 이는 커뮤니티를 위한 도전적인 동적 벤치마크 생산을 장려할 것입니다.
21개 기사 현장위원장상
35개의 뛰어난 논문
(이 사진은 불완전합니다)
참고자료:
https://x.com/aclmeeting/status/1823664612677705762