본문 바로가기

인공지능/NLP6

[논문리뷰]CoMemNN : A Cooperative Memory Network for Personalized Task-oriented Dialogue Systems with Incomplete User Profiles CoMemNN : A Cooperative Memory Network for Personalized Task-oriented Dialogue Systems with Incomplete User Profiles https://arxiv.org/pdf/2102.08322.pdf 문제제기 (1) 모든 사람이 사생활 문제로 인해 자신의 프로필을 노출하지 않으려 하는 경우도 있고, (2) 사용자 프로필은 너무나도 많은 속성(예: 성별, 나이, 취향 등)을 포함할 수 있다. 해결할 과제 (1) 불완전한 사용자 프로필의 누락된 속성 값을 추론하는 방법 (2) 개인화된 프로필을 강화하기 위해 프로필을 사용을 해서 TDS(Task-oriented Dialogue)를 개선하는 방법 핵심개념 대화가 진행됨에 따라 사용자 프.. 2021. 8. 18.
[논문리뷰]Results & Analysis 페이스북의 챗봇 레시피 Recipes for building an open-domain chatbot [Results & Analysis] paper url : https://arxiv.org/pdf/2004.13637.pdf 1. Automatic Evaluations Retriever 검색모델을 평가하는 데 있어서는 2가지 크기모델을 비교하였으며 결과는 파라미터가 큰 것이 대부분의 데이터셋에서 성능이 좋았다. Generator Generative Model은 3가지 크기로 만든 것을 확인할 수 있다. PPL은 성능지표이며 낮을 수록 좋은 성능을 의미한다. 당연하게도 90M 파라미터를 가진 모델보다 2.7B, 9.4B의 성능이 더 좋았다. 90M는 파라미터를 줄인 대신 Vocabulary size를 키웠다. 인코더의 갯수보다.. 2021. 8. 8.
[논문리뷰]모든 대화 스킬을 한번에 ! Blended Skill Talk, Can You Put it All Together: Evaluating Conversational Agents’ Ability to Blend Skills Can You Put it All Together: Evaluating Conversational Agents’ Ability to Blend Skills https://arxiv.org/pdf/2004.08449.pdf Being engaging, knowledgeable, and empathetic are all desirable general qualities in a conversational agent. Open-domain 챗봇은 단순히 하나의 특성만 띄어서는 안되고 Engaging과 Knowledgeable, Empathetic 측면에서 골고루 좋은 성능을 보여야한다. 본 연구에서는 단순히 모델을 통합시키는 것 부터 Multi-task까지 다양한 시도를 하였고, 세가지 특성을 모두 훈련 시킬.. 2021. 8. 8.
[논문리뷰]페이스북의 챗봇 레시피 : Recipes for building an open-domain chatbot Recipes for building an open-domain chatbot paper url : https://arxiv.org/pdf/2004.13637.pdf 본 논문은 Facebook에서 발표한 Open Domain Chatbot에 관한 내용이며, 구글에서 발표한 Open Domain Chatbot인 Meena를 많이 의식하고있는 것 같다. 흥미로웠던 점은 단순히 대답을 하는 것에 초점을 맞춘 것에서 벗어나 '좋은 대화'가 무엇인지부터 논의했다는 점이다. 데이터셋이 모델의 먹이라면, 좋은 대화를 만들어내기위해 정말 다양하면서도 질 좋은 먹이를 준다. 그리고 이 먹이를 어떻게 잘 섞는지 방법도 소개한다. 문장을 생성하기위해 크게 두가지 방법을 사용했다. 검색모델과 생성모델이 그 것인데, 이 둘의 .. 2021. 8. 6.
Self-Attention과 Masked Self-Attention Self-Attention Self attention에서는 Query, Key, Value가 중요한 키워드가 됩니다. 벡터화된 문장을 합쳐 X로 만들고 가중치 Wq, Wk, Wv와 내적하여 각각 Query와 Key, Value값을 도출합니다. 그럼 이렇게 각 토큰에 해당하는 X, Query, Key, Value값이 나타나게됩니다. 이 값을 Query*$Key^T$해줍니다. 말그대로 키 값을 통해서 각 토큰별로 어느정도 연관성이 있는지 알기위함입니다. 이렇게 스코어를 계산하고, 이 값을 softmax함수에 넣어 총합이 1이되게 나누어줍니다. 연관성이 클 수록 값이 커질 것 입니다. 이렇게 softmax까지 한 뒤에, Value값을 곱하고 더해주면 값이 하나 나오게됩니다. 위의 그림에서 "I"를 통해보면, .. 2021. 4. 15.
Attention과 장기 의존성 Seq2Seq(RNN과 장기의존성) RNN을 기반으로한 seq2seq 모델은 encoder에서 input을 받아 고정된 크기의 벡터인 Context Vector를 만들어 냅니다. decoder는 이를 통해서 output을 만들었습니다. 순차적으로 출력하게됩니다. 하지만 크게 두 가지 문제가 있었습니다. Context Vector에 한 문장을 벡터로 표현하다보니 정보의 손실이 많이 발생합니다. 둘째로는 기울기의 소실 문제가 존재합니다. 순차적으로 입력되는 RNN 특성상 decoder로 들어가는 Context Vector는 시퀀스 뒤쪽의 영향을 더 많이 받을 수 밖에 없습니다. 특히 문장이 길어지면 시퀀스 앞쪽에 있는 단어의 영향이 거의 사라집니다. 즉, 문장이 길면 품질이 매우 떨어집니다. 이렇게 이전의 .. 2021. 4. 15.