“여친이랑 혜어져서… 받은거…. 정리합니다 ㅠㅠ!!…”, “☆ㅍㅖ업정리☆ 눈물을 머금고… 아쉽지만 싸게 던져요ㅠ”와 같은 중고거래 게시글을 본 적 있으신가요? 비정상 기기, 위변조된 APK 등 부적절한 방법을 사용하는 어뷰저들의 게시글이에요. 이들은 실시간으로 게시글 작성 패턴을 바꾸며 탐지를 회피해요. 한 시간 전에는 이별했다며 등장하고, 한 시간 후에는 눈물을 흘린다며 판매를 시도하죠. 이 게시글들은 사람이 보기에 공통점이 있지만 supervised learning으로 학습된 모델은 공통점을 캐치하기 어려워하고, 판매 물품에 대해 큰 편향(bias)을 보였어요. 또한 제목 생성기, 이미지 세탁기 등 매크로 프로그램을 사용하는 어뷰저의 속도를 supervised learning으로 따라가기에도 한계가 있었어요.
그래서 서비스 운영실에서는 LLM을 활용한 zero shot 추론에 도전했어요. 또한 임베딩 벡터를 생성하고 벡터 DB인 Pinecone을 사용해서 유사한 제목과 이미지를 사용한 게시글을 클러스터링할 수 있도록 했어요. 어뷰저와의 전쟁에서 성공했냐구요? 발표에서 공개합니다!
🥕 영상을 보고 당근에 관심이 생기셨다면 채용 공고를 확인해보세요! https://about.daangn.com/jobs/