자연어 처리(NLP)/모델(Model)12 [논문 리뷰] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context 참고 사항 - 아직 작성 중인 글 입니다!!0. 요약Transformer-XL(Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, 2019) 논문은 segment-level recurrence mechanism을 도입하여 입력 문맥 길이를 확장함으로써, 고정된 길이를 넘어서는 장거리 의존성을 학습 가능하게 한 논문이라고 요약할 수 있습니다. 여기에, 하나의 문장을 여러개로 분할하는 segmentation 과정에서 발생할 수 있는 위치 정보에 대한 손실을 어느정도 해결 해 줄 수 있는 새로운 positional encoding 방법을 제안합니다. 논문의 저자들에 의하면, RNN 모델 대비 80% , 기존 Vanilla Trans.. 2025. 2. 3. HuggingFace를 활용하여 Text Classification task 수행하기 0. IntroductionHuggingFace는 빠르고 쉽게 데이터셋을 다운로드하고 모델을 만들 수 있게 도와줍니다. 또한 다양한 사람들이 사전학습한 모델을 다운로드 받아서 직접 실험해 볼 수 있습니다. 이번 포스트에서는 HuggingFace를 이용하여 가장 기본이라고도 볼 수 있는 Text Classification task를 수행해보고자 합니다.1. Data데이터는 HuggingFace에서 제공하는 'emotion dataset'을 사용합니다. emotion dataset은 train, validation, test dataset으로 구성되어 있으며, 각각의 데이터셋은 'text'와 'label'로 구성되어 있습니다. 이 데이터에서 예시를 하나 출력해보면 다음과 같이 text와 label이 dict.. 2024. 10. 10. LLaMA: Open and Efficient Foundation Language Models 정리 1. Abstarct7B~65B 개의 Parameter로 구성된 LLM인 LLaMA를 공개함.누구나 사용할 수 있는 공개된 데이터셋을 이용하여 1T 개의 token으로 학습을 진행하였으며, 다양한 task에서 SOTA를 달성함.특히, LLaMA-13B 모델은 GPT-3(175B)와 비교하여 대부분의 benchmark 성능을 뛰어넘음.제시한 모델 중 가장 큰 모델인 LLaMA-65B은 Chinchilla-70B와 PaLM-540B와 경쟁력이 있음.2. Introduction엄청난 양의 텍스트로 학습된 Large Language Model(LLM)은 몇 개의 예제나 instruction으로부터 새로운 task를 수행하는 능력을 보여준다(Brown et al.,2020). 이러한 few-shot의 성질은 모델.. 2024. 6. 10. RoBERTa : A Robustly Optimized BERT Pretraining Approach 정리 및 이해 1. RoBERTa란? RoBERTa는 기존 BERT 모델의 성능을 더욱 높인 모델로써 BERT모델의 구조는 그대로 유지한 채 약간의 training objective와 hyperparameter를 수정하여 모델의 성능을 향상했습니다. RoBERTa 연구진들은 BERT 모델은 상당히 '덜' 훈련되었다고 언급하며 몇 가지 개선사항을 추가한 RoBERTa 모델을 제안하였습니다. We find that BERT was significantly undertrained and propose an improved recipe for training BERT models, which we call RoBERTa, that can match or exceed the performance of all of the pos.. 2024. 3. 7. BERT(Bidirectional Encoder Representations from Transformers) 개념 정리 및 이해 1. BERT란? BERT(Bidirectional Encoder Representation from Transformers)란, 2017년 구글에서 발표한 대규모 언어 모델(LLM)로 Transformer에서 영감을 받은 모델입니다. 기존 Transformer는 Encoder-Decoder구조로 되어있는 반면, BERT모델은 transformer의 encoder만을 활용한 모델입니다. transformer에서 encoder는 문장을 잠재 벡터로 표현해 주는 역할을 하고 있습니다. 그렇다면 BERT는 transformer의 encoder를 어떻게 활용하였을까요? BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.. 2024. 2. 17. Positional encoding과 Relative position representation은 어떻게 동작하는가 Overview 이번 포스트에서는 Position encoding에 대해 정리합니다. 'Attention is all you need'에서 제시한 모델인 Transformer에서 사용된 Position encoding은 self-attention이 order independent하기 때문에 모델에게 input token간의 순서를 알려주기 위해 사용되었습니다. 이후 많은 연구에서 기존 position encoding과는 약간 다른 관점에서의 position encoding이 제안되었습니다. 우선, 기존 Transformer 모델에서 활용된 positional encoding의 필요성과 그 개념에 대해 간단히 살펴본 후, T5 저자들이 활용한 relative position encoding에 대해 정리하고.. 2023. 10. 11. RNN/LSTM/GRU 의 구조를 이해해보자 Sequential data 시퀀셜 데이터(sequential data)란, 순서 정보가 있는 데이터를 말합니다. 주식 시장을 예로 들면 시간 경과에 따른 주가의 변화를 생각해볼 수 있습니다. 이 예시는 많이 언급되므로 이번에는 다른 예를 들어보겠습니다. 아래 그림은 제 블로그의 월별 방문자수를 나타낸 그래프 입니다. 시간이 지남에 따라 방문자의 수가 증가하는 양상을 보이고 있습니다. 이러한 양상은 데이터의 순서 정보를 이용하여 파악할 수 있습니다. 10월 방문자수 1014명이 9월 방문자수 634명보다 많으며, 대체적으로 특정 달의 방문자 수가 그 전 달보다 방문자 수 보다 많기 때문에 우리는 전체적으로 방문자수가 증가 추세에 있다고 말할 수 있습니다. 만약 아래 데이터의 순서 정보를 섞게 된다면 방문.. 2022. 11. 8. Transformer를 이용한 번역모델 구축 이전글 1 : Transformer를 이해하고 구현해보자! (1) 이전글 2 : Transformer를 이해하고 구현해보자! (2) 이번 포스팅에서는 이전에 구현한 모델을 이용하여 간단히 한-영 번역기를 만들어 보도록 하겠습니다. 전체 코드를 보고 싶으신 분은 아래 깃허브를 참고해주세요. Github Link : (정리되면 링크 업로드 예정입니다!) 1. Data 데이터는 AI-Hub에서 공개한 '한국어-영어(병렬) 말뭉치' 데이터를 사용하였습니다. 해당 사이트에 회원가입을 진행 한 후, 전체 160만쌍의 데이터를 다운 받을 수도 있지만, 본 포스트에서는 오직 '샘플 데이터' 만 사용하였습니다. 샘플 데이터에 대해 간단히 요약하면 다음과 같습니다. 샘플 데이터는 총 6개의 파일로 구성되어 있으며 각각 다.. 2022. 1. 22. Transformer를 이해하고 구현해보자! (2) 이전글 : Transformer를 이해하고 구현해보자! (1) 다음글 : Transformer를 이용한 번역모델 구축 저번 포스팅에서는 Transformer의 구성요소인 Positional Encoding, Multi-Head Attention, LayerNorm, Feed-Forward에 대해 알아보고 구현해보았습니다. 이번 포스팅에서는 저번 포스팅에 이어 Encoder와 Decoder를 구현한 뒤, 전체 모델인 Transformer를 구현해보겠습니다. 사실 구현에 필요한 핵심적인 부분은 모두 저번 포스트에서 다루었기 때문에 이번 포스트에서는 전에 구현한 클래스들을 이어붙이는 작업이 주를 이룹니다. +) 다음 포스팅에서는 이번에 구현한 Transformer 모델을 이용하여 한-영 번역기 모델도 학습을 .. 2022. 1. 21. 이전 1 2 다음