분류 전체보기 104

퀘벡(Quebec) 여행 2024 6/27-28

6월 27일 새벽 6시 기차를 타고 몬트리올 센트럴 역에서 퀘벡시티로 이동했다. 약 3시간 반 정도 걸렸는데 기차를 타며 내내 보이는 풍경은 그저 허허벌판뿐...퀘벡시티에 도착하니 날씨는 흐리고, 비도 간간히 내려 하루가 힘들 것을 예감하였다.퀘벡 시티의 첫 인상은 프랑스나 독일의 소도시 느낌이 난다는 것이었다. 특히, 경사가 있는 언덕 때문인지 독일의 잘츠부르크와 비슷한 느낌이 나서 신기했다. 내가   묵었던 호텔은 카운터에 접객을 하는 직원이 없어서 다른 호텔에 짐을 맡겼다. 원래 그 호텔에 묵을 예정인 고객들에게만 제공하는 서비스였지만, 호텔 직원들이 친절하게 도움을 주셨다. 날씨에서 느끼지 못한 따뜻함을 현지인에게 느끼니 본격적인 관광에 앞서 다시 기분이 좋아졌다. 나는 가장 먼저 퀘벡을 대표하는..

몬트리올(Montreal) 여행 2024 6/26

처음으로 올리는 여행 관련 포스트 입니다. 제가 공부 하면서 얻은 지식이나 데이터 분석 관련 포스트를 업로드 하기 위해 시작한 티스토리지만, 제 박사생활 동안 다녀온 여행들에 대한 기록도 남겨볼까 합니다. 고독하고 힘든 박사 생활중 다녀온 여행인 만큼 저에게 많은 의미를 주는 이벤트들이기 때문입니다. 박사 2년차 끝무렵에 접어든 지금까지 많은 여행을 다녔지만, 우선 가장 최근에 다녀온 몬트리올-퀘벡 여행에 대해 포스트 하려고 합니다.몬트리올까지 여정의 대장정이었다. 내가 사는 London 이라는 도시에서 토론토까지 버스를 타고 가고, 토론토의 Union station에서 기차를 타고 Montreal로 가는 루트를 탔는데 한 10시간이 소요 되었다. 이번에는 VIA Rail에서 여름 휴가 할인 이벤트를 진..

네트워크 데이터 분석 - robustness, core decomposition, assortativity

목차 " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스 이번 포스트에서는 네트워크의 robustness (강건성), core decomposition 그리고 네트워크에 그룹이 2개 있는 경우에 정의가 가능한 heterophilicity (이호성)과 dyadicity (이극성)에 대해 다뤄 보겠습니다.1. Robustness (강건성)보통 시스템이 robust 하다고 하면, 시스템의 일부분이 작동하지 않아도 전체의 기능에 영향을 주지 않는 경우를 말합니다.네트워크에서도 비슷하게 robustness를 정의할 수 있습니다. 노드나 edge를 제거할 때 전체 네트워크 구조가 어떻게 변하는지 보면 됩니다. 그러므로, 네트워크의 robustness의 키포인트는 connectedness..

네트워크 데이터 분석 - Centrality

목차 " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스 이번 포스트에스는 노드의 구심성 (centrality) 에 대해서 다뤄보겠습니다.1. What is it?현실 네트워크의 특징중 하나는 모든 노드나 edge가 같은 중요성을 갖지 않는다는 것입니다. 특정 노드 또는 edge는 네트워크에서 더욱 중요한 위치를 차지하고 있죠. 예를 들어, 친구 네트워크의 경우, 굉장히 E인 (또는 인싸인) 친구가 네트워크에서 중추적인 역할을 차지하고 있는 경우를 많이 볼 수 있습니다. 그 친구를 중심으로 여러 친구들이 모이고, 그 친구를 통해서 내가 잘 모르는 다른 친구들의 이야기도 들을 수 있죠. 이러한 친구 또는 노드를 central 하다고 합니다.하지만 노드의 centrality는 또..

네트워크 데이터 분석 - 현실 네트워크의 특징들

목차 " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스 이번 포스트에서는 현실 네트워크의 가장 큰 특징인 assortativity (동류성), small world, friend of friend를 다뤄보고자 합니다.1. Assortativity (동류성, 유유상종)1 - 1. 정의유유상종(類類相從) 이라는 사자성어가 있습니다. 다들 아시다시피 같은 무리 안에서 서로 사귄다는 의미입니다. 영어에도 비슷한 표현이 있습니다. Birds of a feather flock together, 같은 깃털의 새들이 떼지어 다닌다는 의미이죠. 동서양 양측 문화권에서 속담이나 격언으로 포착될 만큼, 같은 특징을 짓는 무리들이 서로 사귀고 몰려 다니는 현상은 현실의 네트워크에서 흔히 관측되는..

네트워크 데이터 분석 - Networkx

HTML 삽입미리보기할 수 없는 소스 HTML 삽입미리보기할 수 없는 소스 이번 포스트에서는 네트워크 데이터 분석의 기초가 되는 개념들을 다뤄보겠습니다.1. 그래프의 구성 요소네트워크 데이터란 두 관측치" data-og-host="sanghn.tistory.com" data-og-source-url="https://sanghn.tistory.com/12" data-og-image="https://scrap.kakaocdn.net/dn/0MPfx/hyWoNXfXIl/U1O45woDzfljzFBQYKsym1/img.png?width=800&height=785&face=0_0_800_785,https://scrap.kakaocdn.net/dn/zKwwr/hyWoKTJJbT/D9U4ALjgEm8qtqqmf3Re..

네트워크 데이터 분석 - 서론

목차 " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스  이번 포스트에서는 네트워크 데이터 분석의 기초가 되는 개념들을 다뤄보겠습니다.1. 그래프의 구성 요소네트워크 데이터란 두 관측치 사이의 연결성을 나타내는 데이터로, 그래프의 형태로 표현됩니다.그래프는 N개의 노드 (node) 와 노드들을 잇는 edge들로 정의할 수 있습니다. 앞으로 ($i$,$j$)는 노드 $i$와 노드 $j$를 잇는 edge로 정의하겠습니다. 이 경우, 두 노드 $i$, $j$ 는 인접 (adjacent) 하다고 합니다.네트워크의 edge는 방향성이 있는 경우 (directed)와 방향성이 없는 경우 (undirected)로 나뉩니다. Undirected graph의 edge ($i$,$j$)는 $..

Bootstrap으로 신뢰구간 구하기

목차 " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스 2021.12.25 - [통계학] - 잔차(residual)를 이용한 Bootstrapping 잔차(residual)를 이용한 Bootstrapping선형회귀모형에서 제일 많이 사용되는 bootstrap은 paired bootsrap이다. 이는 data table이 있다면 row를 resampling하는 방식이다. 즉, $(X_i, Y_i)$를 pair로 resampling하는 것이다. 이 방식은 단순하기 때문..sanghn.tistory.com위의 포스트에 이어서 이번엔 bootstrap을 이용해 가설검정을 해보자.1. Bootstrap 신뢰 구간지난 포스트와 마찬가지로, Least Absolute deviation ..

Random Walks on Groups - 서론

목차 " data-ke-type="html">HTML 삽입미리보기할 수 없는 소스  제가 최근에 공부한 군 위에서의 랜덤워크 (random walks on groups)의 개요에 대해서 몇몇 포스트를 써보고자 합니다.1. What is it?가장 기본적인 랜덤워크를 생각해봅시다.실선 위 원점에서 시작하고, 동전의 앞면이 나오면 +1, 뒷면이 나오면 -1 만큼 움직인다고 합시다. 그리고 n 번쨰 동전에 대한 확률변수를 $X_{n}$ 이라고 정의합시다. 그렇다면 독립적으로 n 번째 동전을 던졌을 때의 위치는 $S_{n} = X_{1} + X_{2} + \dots + X_{n}$ 이 됩니다. 그러면 대수의 법칙 (Law of large number)에 의하여 almost surely $\frac{S_{n}..

수학 2024.06.14

OpenAI API의 Embedding 활용

이 포스트에서는 OpenAI API의 Embedding을 활용하여 간단하게 데이터 분석을 해보고자 한다. 한국어 텍스트 데이터를 분석해보면 더 친숙할 것 같아서 한국어 혐오 발언 분류 데이터셋을 이용하기로 했다. (데이터 및 패키지 링크: https://github.com/kocohub/korean-hate-speech) 아래는 이번 포스트에서 사용할 패키지들이다. 여기서 koco 패키지는 데이터셋을 위해 필요하다.from openai import OpenAIimport osimport numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import confusion_mat..

카테고리 없음 2024.06.12