본문 바로가기

NLP4

QA System 서론 Question&Answering System이란?Question&Answering System(이하 QA) 시스템이란, 자연어 형태의 질문을 입력 받은 다음, 해당 질문에 대한 가장 적절한 답변을 찾아 답변하는 시스템을 의미한다. 종류에 따라서 답변을 ‘찾아서’ 보여주는 경우와 답변을 ‘생성해서’ 보여주는 경우로 나눠볼 수 있다.Question&Answering System이 어떻게 작동하는가?질문 분석사용자 질문에서 핵심 단어(키워드)와 의도를 파악합니다.예: “가장 높은 산”이라는 키워드와 “무엇인가?”라는 질문 의도를 인식.정보 검색(혹은 지식 베이스 접근)DB, 문서, 웹 페이지 등 다양한 데이터 소스에서 해당 질문에 답을 할 수 있는 정보를 찾아냅니다.질의응답 시스템마다 내부적으로 검색 엔진,.. 2025. 1. 15.
HuggingFace를 활용하여 Text Classification task 수행하기 0. IntroductionHuggingFace는 빠르고 쉽게 데이터셋을 다운로드하고 모델을 만들 수 있게 도와줍니다. 또한 다양한 사람들이 사전학습한 모델을 다운로드 받아서 직접 실험해 볼 수 있습니다. 이번 포스트에서는 HuggingFace를 이용하여 가장 기본이라고도 볼 수 있는 Text Classification task를 수행해보고자 합니다.1. Data데이터는 HuggingFace에서 제공하는 'emotion dataset'을 사용합니다. emotion dataset은 train, validation, test dataset으로 구성되어 있으며, 각각의 데이터셋은 'text'와 'label'로 구성되어 있습니다. 이 데이터에서 예시를 하나 출력해보면 다음과 같이 text와 label이 dict.. 2024. 10. 10.
Tokenizer : 기본적인 토큰화(Tokenization) 방법 0. Introduction기본적으로 언어를 입력받는 모델은 바로 텍스트(원시 문자열)를 입력받지 못합니다. 이는 시계열 데이터와 같이 숫자로 이루어진 데이터가 아니기 때문입니다. 따라서 우리는 모델에 텍스트를 입력하기 위해 원시 문자열을 숫자의 형태로 바꿔 줄 필요가 있습니다. 이때 원시 문자열을 숫자로 바꾸는 과정을 '임베딩(Embedding) 혹은 토큰화(Tokenization)' 이라고 합니다.(가끔은 인코딩(encoding)이라고 부르는 분들도 있습니다) 이번 포스트에서는 가장 기본적인 형태의 토큰화 방법에 대해 정리하고자 합니다. 1. 문자 토큰화(Character-based tokenization)가장 간단한 토큰화 방법은 각 문자를 1,2,3 과 같이 숫자로 바꿔서 모델에 입력하는 방법입니.. 2024. 9. 26.
WordPiece Tokenizer 이해 및 정리 1. 워드피스(WordPiece) Tokenizer란? 워드피스(WordPiece) Tokenizer는 Subword Tokenization의 일종으로써 주어진 텍스트를 하위단어(subword)로 쪼개는 방식입니다. 하나의 단어는 접두사 혹은 접미사가 붙어서 여러 형태로 변화할 수 있기 때문에 기존에 단어를 그대로 토큰화하는 방법보다는 유연하게 Out of Vocabulary(모델이 처음 보는 단어를 마주한 경우)에 대처할 수 있습니다. Subword tokenizer에는 여러 종류가 있지만, 이번 포스트에서는 BERT에서 사전학습에 사용한 것으로 유명한 WordPiece tokenizer에 대해 정리해보고자 합니다. 2. BPE Tokenizer와의 차이점? Wordpiece tokenizer의 토크화.. 2023. 12. 18.