이 포스트에서는 OpenAI API의 Embedding을 활용하여 간단하게 데이터 분석을 해보고자 한다. 한국어 텍스트 데이터를 분석해보면 더 친숙할 것 같아서 한국어 혐오 발언 분류 데이터셋을 이용하기로 했다. (데이터 및 패키지 링크: https://github.com/kocohub/korean-hate-speech) 아래는 이번 포스트에서 사용할 패키지들이다. 여기서 koco 패키지는 데이터셋을 위해 필요하다.from openai import OpenAIimport osimport numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import confusion_mat..