카테고리 없음

OpenAI API의 Embedding 활용

skypainter 2024. 6. 12. 14:38

이 포스트에서는 OpenAI API의 Embedding을 활용하여 간단하게 데이터 분석을 해보고자 한다. 한국어 텍스트 데이터를 분석해보면 더 친숙할 것 같아서 한국어 혐오 발언 분류 데이터셋을 이용하기로 했다.
(데이터 및 패키지 링크: https://github.com/kocohub/korean-hate-speech)
아래는 이번 포스트에서 사용할 패키지들이다. 여기서 koco 패키지는 데이터셋을 위해 필요하다.

텍스트 하나를 Embedding 해보면 output size가 1536임을 알 수 있다.