전체 글 69

네트워크 데이터 분석 - Networkx

HTML 삽입미리보기할 수 없는 소스 HTML 삽입미리보기할 수 없는 소스 이번 포스트에서는 네트워크 데이터 분석의 기초가 되는 개념들을 다뤄보겠습니다.1. 그래프의 구성 요소네트워크 데이터란 두 관측치" data-og-host="sanghn.tistory.com" data-og-source-url="https://sanghn.tistory.com/12" data-og-image="https://scrap.kakaocdn.net/dn/0MPfx/hyWoNXfXIl/U1O45woDzfljzFBQYKsym1/img.png?width=800&height=785&face=0_0_800_785,https://scrap.kakaocdn.net/dn/zKwwr/hyWoKTJJbT/D9U4ALjgEm8qtqqmf3Re..

네트워크 데이터 분석 - 서론

목차 " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스  이번 포스트에서는 네트워크 데이터 분석의 기초가 되는 개념들을 다뤄보겠습니다.1. 그래프의 구성 요소네트워크 데이터란 두 관측치 사이의 연결성을 나타내는 데이터로, 그래프의 형태로 표현됩니다.그래프는 N개의 노드 (node) 와 노드들을 잇는 edge들로 정의할 수 있습니다. 앞으로 ($i$,$j$)는 노드 $i$와 노드 $j$를 잇는 edge로 정의하겠습니다. 이 경우, 두 노드 $i$, $j$ 는 인접 (adjacent) 하다고 합니다.네트워크의 edge는 방향성이 있는 경우 (directed)와 방향성이 없는 경우 (undirected)로 나뉩니다. Undirected graph의 edge ($i$,$j$)는 $..

Bootstrap으로 신뢰구간 구하기

목차 " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스 2021.12.25 - [통계학] - 잔차(residual)를 이용한 Bootstrapping 잔차(residual)를 이용한 Bootstrapping선형회귀모형에서 제일 많이 사용되는 bootstrap은 paired bootsrap이다. 이는 data table이 있다면 row를 resampling하는 방식이다. 즉, $(X_i, Y_i)$를 pair로 resampling하는 것이다. 이 방식은 단순하기 때문..sanghn.tistory.com위의 포스트에 이어서 이번엔 bootstrap을 이용해 가설검정을 해보자.1. Bootstrap 신뢰 구간지난 포스트와 마찬가지로, Least Absolute deviation ..

Random Walks on Groups - 서론

목차 " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스  제가 최근에 공부한 군 위에서의 랜덤워크 (random walks on groups)의 개요에 대해서 몇몇 포스트를 써보고자 합니다.1. What is it?가장 기본적인 랜덤워크를 생각해봅시다.실선 위 원점에서 시작하고, 동전의 앞면이 나오면 +1, 뒷면이 나오면 -1 만큼 움직인다고 합시다. 그리고 n 번쨰 동전에 대한 확률변수를 $X_{n}$ 이라고 정의합시다. 그렇다면 독립적으로 n 번째 동전을 던졌을 때의 위치는 $S_{n} = X_{1} + X_{2} + \dots + X_{n}$ 이 됩니다. 그러면 대수의 법칙 (Law of large number)에 의하여 almost surely $\frac{S_{n}..

수학 2024.06.14

OpenAI API의 Embedding 활용

이 포스트에서는 OpenAI API의 Embedding을 활용하여 간단하게 데이터 분석을 해보고자 한다. 한국어 텍스트 데이터를 분석해보면 더 친숙할 것 같아서 한국어 혐오 발언 분류 데이터셋을 이용하기로 했다. (데이터 및 패키지 링크: https://github.com/kocohub/korean-hate-speech) 아래는 이번 포스트에서 사용할 패키지들이다. 여기서 koco 패키지는 데이터셋을 위해 필요하다.from openai import OpenAIimport osimport numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import confusion_mat..

카테고리 없음 2024.06.12

OpenAI API 이용하기

이 포스트에서는 OpenAI API를 통한 ChatGPT 이용하고자 한다. OpenAI API는 유료지만 필자의 경우, 교수님께서 Lab 멤버들의 연구를 위해 OpenAPI를 구독해주셔서 부담 없이 쓰는 중이다 ㅎㅎ아래는 이 포스트에서 사용할 패키지들이다.from openai import OpenAIimport osKeyOpenAI.txt 파일은 필자가 저장해놓은 API key이다. API key는 OpenAI 사이트에서 생성이 가능한데, 생성할 때 딱 한번만 key를 볼 수 있으므로 안전하게 key를 저장해놓는 것이 좋다.(주의!) 절대로 다른 사람과 공유해서는 안 되므로 주의하자.매번 이렇게 coding을 하는 것이 귀찮다면, 아예 Windows 시스템 세팅에서 환경변수로 설정하는 방법도 있다.(참고..

카테고리 없음 2024.06.09

잔차(residual)를 이용한 Bootstrapping

목차 " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스선형회귀모형에서 제일 많이 사용되는 bootstrap은 paired bootsrap이다. 이는 data table이 있다면 row를 resampling하는 방식이다. 즉, $(X_i, Y_i)$를 pair로 resampling하는 것이다.이 방식은 단순하기 때문에 실행하기 쉽다는 장점이 있다. 하지만 influential points가 있는 경우, 크게 영향을 받는다는 단점이 있다. 이는 resampling 과정에서 influential points가 샘플링 되는지에 따라 추정치가 크게 변하기 때문이다.이 포스트에서는 influential points에 영향을 덜 받는 residual bootstrap을 알아보자.1. ..

MongoDB - DB와 Collection 생성 삭제

목차 " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스MongoDB의 용어구체적인 내용을 서술하기에 앞서, 먼저 MongoDB의 논리적 구조에 사용되는 용어들을 알아둘 필요가 있습니다.(1) DocumentDocumet란 MongoDB에 저장된 하나의 record라고 보시면 됩니다. 또한 MongoDB에 저장되는 데이터의 기본 단위입니다. Document는 아래처럼 JSON과 유사한 구조를 가지며, field: value 의 쌍들로 이루어져 있습니다.{ name: "Sam", Student Number: 20001, major: ["Economics", "Statistics"]}Document는 텍스트 그대로 저장되는 것이 아니라 BSON (binary represe..

카테고리 없음 2020.08.20

MongoDB 설치 및 환경변수 설정(ver 4.4.0)

Step 1. 설치 파일 다운로드 및 실행먼저 아래의 링크로 접속합니다.MongoDB Community DownloadDownload the Community version of MongoDB's non-relational database server from MongoDB's download center.www.mongodb.comtryVersion: 4.4.0 (current), Package: msi 선택해주시고 Platform은 본인의 OS에 맞게 설정합니다.그리고 밑의 Download 버튼을 클릭.설치가 완료되면 파일을 실행합니다.여기서 라이센스 동의 란에 체크를 해주고 Next.Complete를 클릭합니다.아무런 변경없이 Next 클릭GUI 환경을 원하시면 Install MongoDB Comp..

카테고리 없음 2020.08.16