TEAMLAB

Human knowledge belongs to the world . -AntiTrust

KCC2018 정보과학회 - 전홍준

KCC2018 정보과학회 후기

이번 KCC2018 정보과학회는 제 두번째 학회입니다. 물론 이번 학회에서도 비록 논문 및 포스터를 제출하진 않았지만 다른 랩의 연구 및 논문을 보고 아이디어와 키워드를 얻고 저의 학습방향에 대한 방향을 잡아주며 또한 저 자신에게 동기부여가 될 거라 확신을 하고 참석을 하였습니다. 저의 관심 분야인 추천분야와 NLP 분야를 들어보니 제 실력의 현 위치와 제가 몰랐던 이론 및 흥미로운 아이디어 등 을 알게되어 매우 도움이 되었습니다. 비록 각 세션룸의 공간 문제와 동시간대 세션 등의 문제로 제가 듣고자하는 분야의 몇몇 발표를 놓쳤지만 제가 들은 발표 중 재밌고 집중하게된 두 발표에 대해 적어보자합니다.

차분 프라이버시 적용을 위한 데이터 프라이버시 가격 협상 기법

이 발표는 차분프라이버시를 적용한 데이터 마켓 환경에서 데이터 제공자와 사용자 모두가 만족할 수 있는 적정 수준의 가격과 노이즈 패러미터 ε을 설정할 수 있는 협상 기법을 제안한 발표입니다. 먼저 차분 프라이버시란 데이터베이스를 통한 데이터분석 과정에서 개인정보의 노출을 보호하기 위해 표준으로 자리잡고 있는 기법입니다. 그러나 이 기법은 아직 노이즈 패러미터 ε값의 설정 문제나 데이터 유용성 저하 등 실세계에 적용되기 위해 해결해야 할 문제들이 존재하고 있습니다. 해당 발표는 바로 이러한 ε값의 적절한 설정과 구매자와 판매자간의 적정 가격을 결정할 수 있는 협상알고리즘을 제안하고 있습니다.

먼저 데이터 마켓 상에서 데이터 판매자와 구매자는 서로 다른 요구사항을 지니고 데이터 거래에 임하는데 이러한 이유로 데이터 판매자와 구매자간의 요구사항 차이를 반영하여 모두가 만족할 수 있는 ε값과 ε의 단위 가격을 결정해야 합니다. 즉 데이터 구매자와 판매자간의 매칭은 최적의 매칭을 찾는 multi-objective 문제이고 발표자는 genetic algorithm 중 대표적인 기법인 NSGA-2를 사용하여 이 문제를 해결하고자했습니다. 발표에서 multi-objective genetic algorithm 을 이용한 매칭 알고리즘은 실험결과 nearly pareto-optimal을 잘 찾아낸 것을 증명하였습니다.

다음은 매칭을 통해 요구사항간의 차이를 최소화하는 데이터 판매자들과 데이터 구매자를 연결한 뒤에는 연결된 사용자간 협상을 통해 데이터 판매자와 구매자의 입장을 모두 고려한 최종적인 ε의 값과 단위 ε 가격을 결정해야 하는데 먼저 이러한 최적 ε의 값을 찾는 과정에서 지속적으로 소모되는 시간 문제는 판매자와 구매자 모두에게 마이너스로 다가옵니다. 이러한 문제를 해결하기 위해 발표자는 대표적인 협상 기술인 Rubinstein Bargaining Model 을 적용했습니다. 이는 시간이 흘러 감에 따라 이득이 줄어드는 할인율이라는 개념을 도입하여 각 참가자들이 협상 시간 안에 협상을 완료하도록 유도하는 기법 중 하나입니다. 이 모델을 적용하기 위해서는 판매자와 구매자 사이의 할인인자를 결정해야 하는데 데이터 판매자의 입장에서 할인인자 를 결정하는 요소는 프라이버시 민감도이고 반면 데이터 구매자의 입장에선 데이터에 대한 필요에 비례하여 할인인자가 결정됩니다. 이러한 방식으로 결정된 할인인자를 바탕으로 수식을 통해 최종 ε값이 결정이 되는 것입니다. 이러한 2가지 step 을 걸쳐 가격 협상이 이루어지며 이 실험의 결과는 gale-sharply 매칭만을 수행하여 거래를 수행한 경우보다 2배 가량의 요구사항간의 차이를 감소시킨 점을 보아 사용자의 프라이버시를 침해하지 않으면서 더 정 확한 질의 결과를 얻어낼 수 있음을 보였습니다.

해당 발표는 우리 연구실과 직접적인 연관이 있는 분야는 아니었지만 발표 주제가 매우 재미있었으며 실제 데이터마켓 환경에서 이루어지는 가격협상 알고리즘을 배워봄으로써 데이터베이스 기계학습 분야에 대한 흥미를 불러일으키기에 충분했습니다.

시간 정보와 인기도 샘플링을 이용한 세션 기반 추천 모델

음악, 영화를 제공하는 사이트에서 사용자와 상품 간의 많은 상호작용이 로그인을 하지 않은 상태에서 이루어지는데, 이러한 상황에서 상품을 추천할 때는 사용자 식별 정보가 제공되지 않으므로 사용자들의 과거 이력을 이용할 수 없습니다. 익명의 사용자와 상품 간의 상호작용에 대한 짧은 이력(세션)만이 주어지는데, 세션 기반 추천 모델은 이러한 세션 정보를 바탕으로 상품을 추천하는 모델입니다. 일반적으로 상품 간 유사도를 통해 추천하는 모델이 자주 사용되었으나 최근에는 RNN 을 이용한 모델이 좋은 성능을 보여주고 있습니다. 기존의 연구는 시간대를 고려하지않은 모델을 제안했지만 본 연구는 시간 정보를 반영한 GRU 모델을 제안하여 성능을 향상시켰습니다.먼저 GRU 란 게이트 메커니즘을 접목시킨 순환 신경망 모델입니다. 순환 신경망은 내부의 유닛이 많아질수록 gradient descent 로 학습이 잘되지 않는, vanishing gradient 문제가 발생 하는데, 이 문제를 효과적으로 개선한 모델이 GRU 입니다.

두번째로 적용한 기법은 BPR-max 가중치 적용입니다. BPR 이란 Bayesian Personalized Ranking 으로 이는 사용자가 선택한 목표 상품의 점수가 네거티브 샘플(목표 상품 이외의 상품들 중 샘플링한 상품들의 집합)의 점수보다 높아지는 방향으로 학습되게 유도하는 역할을 합니다. 이는 결국 목표 상품과 네거티브 샘플과의 점수를 키워 전체적인 손실 값을 낮추는 역할을 하게 됩니다. 기존의 BPR-max 손실 함수는 네거티브 샘플 중 점수가 높은 항목에 가중치를 높여 학습 효과를 향상시키는데, 이와 같은 가중치 부여 방식도 학습의 진행이 더뎌지게 되는데 해당 실험은 학습 초기에는 전반적인 샘플에 대해 학습을 진행하고 학습이 진행될수록 가중치가 높아질 수 있도록 함수를 개선했습니다.

이 실험의 결과는 실제 기존의 연구보다 성능이 어느 정도 향샹되었으며 특히 식사 시간에는 식당에 가고, 숙박 시간에는 숙박 시설에 가는 것과 같이, 시간의 변화에 따라 추천 상품의 변화가 큰 문제에 대해서 높은 성능을 보일 수 있음을 증명했습니다.

해당 발표는 추천분야에 관심이 많고 뿐만 아니라 순환신경망에 대해 깊게 공부하고 있는 저에게 매우 흥미로운 발표였습니다. 최근에 배운 이론들이 실제 필드에서 이런 식으로 사용이 된다는 것이 저에게는 매우 큰 배움이었으며 해당 분야에 대한 학습동기를 일으키기에 충분했습니다. 아직 석사과정 첫학기를 끝마친 저의 수준에 맞는 가장 인상적인 발표였습니다.