Loading [MathJax]/jax/output/CommonHTML/jax.js
R언어 시각화 통계 입문
동그랑땡의 github 자세히보기

동그랑땡의 데이터 데이터 데이터 18

R httr2 패키지로 티스토리 API의 Authentication Code 방식 권한 받기

Authentication Code 방식 인증 프로세스 티스토리 API를 사용하려면 Authentication Code 방식을 통해 내가 API 사용에 적합한 사용자임을 인증해야 한다. 인증 프로세스는 다음과 같다. access token을 이용한 글 내용 요청은 인증에 성공하고 최종적으로 하려고 했던 프로세스이다. R에서는 이러한 인증 프로세스를 httr2 패키지로 진행할 수 있다. httr2 패키지는 R 필수 패키지인 tidyverse를 만든 해들리 위컴이 만들었다. 꽤나 최신 패키지라 그런지 httr2 패키지를 물어보면 gpt4가 이상한 응답을 내놓고 있다.(2023.10.27 기준) 때문에 이 글이 몇몇 소수의 R 덕후분들에게 가이드가 될 수 있지 않을까 살짝 기대해 본다. (httr2 패키지와 ..

통계에서 신뢰성 Reliability 정의 | 일관성(consistency) | 상호교환적

📍현재 위치 : 측정 > 신뢰성 검토신뢰성(Reliability)이란?신뢰성은 교육학 분야의 고전검사이론에서 발전한 개념이다. 고전검사이론에 따르면 우리가 측정하여 얻은 측정값은 아래와 같이 이뤄져 있다. X=T(Truevalue)+ϵ 우리가 측정을 하는 이유는 결국 실제값을 알아내고 싶기 때문이다. 그러므로 측정값에 무작위오차 보단 실제값이 훨씬 많이 포함되어 있길 바란다. 신뢰성은 이러한 면에서 측정의 유용성을 판단하는데 사용한다. 신뢰성 ρ=Var(T)Var(X) 측정값의 분산 중 실제값의 분산 비율을 측정함에 따라 측정값에 실제값이 얼마나 포함되어있는지 알려준다. 신뢰성이 높다는 것은 측정의 일관성(consistenc..

R long to wide, tidyverse를 사용할 땐, tidy data = long data

1. Do you know tidy? R을 사용하면 항상 사용하는 패키지인 tidyverse의 tidy에 대한 궁금함을 가져본 적은 없다. 하지만, 을 읽는 순간 tidyverse를 사용하기 전에 tidy라는 개념을 알아뒀다면 훨씬 수월하게 tidyverse를 사용했으리라 생각한다.(특히 ggplot2로 plotting 하는 속도가 달랐을 것이다.) 1.1. tidyverse tidy + universe의 합성어로 이루어진 tidyverse는 R에서 가장 중요한 패키지(세트)라고 할 수 있다. tidyverse에는 ggplot2, tibble, tidyr, dplyr 등 매우 중요한 패키지가 담겨 있다. 이중에서도 ggplot2는 차트, 그래프 등 여러 가지 데이터 시각화 요소를 깔끔하고 세련되게 만들어..

메트릭 척도, 리커트 척도 | metric, monadic, Likert scale 정의 & 설명/예시 + 종류

📍현재 위치 : 측정 > 척도 > 척도방법에 따른 분류 > 메트릭척도(metric scale) 잠깐 들어가기 전에 척도에 대한 개념을 잡아야한다면 아래 글을 읽어보자. 측정과 척도, 그 애매함에 관해...(+ 척도의 종류) 설명, 정의 📍현재 위치 : 측정 > 척도 > 척도방법에 따른 분류 측정은 왜 하는 것일까? 통계학에서 측정 measurement을 하는 이유는 개념, 즉 가설을 검증하고 싶기 때문일 것이다. 예를 들어, '상품 판매수는 oooo12.tistory.com 척도에 대한 개념이 잡혔다면, 아래 글을 통해 비메트릭 척도에 대한 이해를 가져가보자. 메트릭 척도를 이해하는데 도움을 준다. 비메트릭 척도, 비교척도 방법| non-metric scale, comparative scale 정의 & ..

비메트릭 척도, 비교척도 방법 정의 & 설명/예시 + 종류

📍현재 위치 : 측정 > 척도 > 척도방법에 따른 분류 > 비메트릭척도(non-metric)척도는 무엇인가?비교척도, 비메트릭 척도를 이해하려면, 척도(scale)에 대한 이해가 필요하다. 아래 글에서 척도는 물론 측정이 왜 필요한지에 대해 알아보자. 측정과 척도, 그 애매함에 관해...(+ 척도의 종류) 설명, 정의📍현재 위치 : 측정 > 척도 > 척도방법에 따른 분류 측정은 왜 하는 것일까? 통계학에서 측정 measurement을 하는 이유는 개념, 즉 가설을 검증하고 싶기 때문일 것이다. 예를 들어, '상품 판매수는 oooo12.tistory.com비메트릭 척도(non-metric scale)란?metric은 meter의 변형이다. meter는 measure를 어원으로 한다. 직역하자면 '측정'이겠..

측정과 척도, 그 애매함에 관해...(+ 척도의 종류) 설명, 정의

📍현재 위치 : 측정 > 척도 > 척도방법에 따른 분류 측정은 왜 하는 것일까? 통계학에서 측정 measurement을 하는 이유는 개념, 즉 가설을 검증하고 싶기 때문일 것이다. 예를 들어, '상품 판매수는 상세페이지 방문자수와 관계가 있다.'라는 가설을 세웠다고 하자. 이러한 가설은 검증하지 않더라도 옳은 개념이라는 걸 직관적으로 알 수 있다. 하지만, 이를 통계적으로 확인할 수 있다면 더 확신을 갖게 될 것이다. 이 관계가 맞는지 확인하려면 두 변수를 측정해야 할 것이다. 상품 판매수를 측정하고, 해당 상품의 상세페이지 방문자수를 측정하여 plot을 그려보자. 상품 판매수를 Y, 해당 상품의 상세페이지 방문자수를 X로 두고 plot을 그려보면 한눈에 두 변수간 관계가 있는지 확인할 수 있다! 척도는..

'나성호의 R데이터 분석 입문' 완독하고 남기는 짧은 소회

깃허브에 기록하며 R공부 깃허브에 '나성호의 R데이터 분석 입문'을 실습했던 기록을 남겨두었다. 9장부터는 R 마크다운을 알게되어 Rmd파일이 존재하지만 그 이전에는 그냥 .R 파일로 했다. R마크다운이 없다가 생긴걸 보니 이 책을 읽는 동안 나에게 많은 발전이 있었다는 생각이 든다. 깃허브에 기록하면서 이 책을 완독하길 권한다. 깃허브 기록 전후 성취감이 완전히 다르다. ‘나성호의 R 데이터 분석입문’ 책을 고른 이유 이 책을 보고 싶었던 이유는 '부동산' 데이터를 사용하기 때문이었다. 이 책을 고를 때에는 부동산에 상당한 관심을 갖고 있었기 때문에, 어쨌든 처음으로 컴퓨터 언어를 제대로 배우고자 하여 상당히 불안한 나에게 꽤 흥미있는 요소를 던져주는게 중요하다고 생각했다. 물론 내가 기대한 바와는 다..

R ggplot으로 Slope chart 만들기 geom_segment, geom_text(+ ggplot 한글 깨짐 현상 해결책)

Slope Chart란? before after 차이가 있는 경우 그 차이를 간단하고 명확하게 보여주기 위해 사용한다. 나의 경우, 이론값과 실험값의 차이와 그 경향을 보여주기 위해 사용했다. 그러나, 대게 timeline 상에서 변화를 보여주기 위해 많이 사용한다. 아래 예시가 slope graph의 좋은 예시이다. 아무튼 본 포스팅은 아래 그래프를 만드는 과정을 담았다. ggplot, scales 라이브러리 사용 본 포스팅에선 Slope chart를 ggplot, scales 라이브러리를 이용하여 만든다. 혹시나 library가 없다면 미리 패키지를 설치하길 바란다. install.packages("tidyverse") install.packages("scales") library(ggplot2) l..

바이오신약에서 위험비와 위험률 알아보기 (신뢰구간, p값, 통계 검정)

바이오 관련 기사에 ‘위험비’라는 단어가 상당히 많이 나온다. 아무래도 신약에 있어서 제일 중요한 것은 ‘위험하지 않다.’일 것이다. 이러한 면을 판단하는 위험비에 대해 알아보았다. 위험비(Hazard ratio) 위험비(Hazard ratio)는 실험군의 위험률을 대조군의 위험률로 나눈 값이다. 만약 위험비가 1이면, 실험군과 대조군이 동일한 위 험률을 가진다는 의미다. 만약 위험비가 1보다 크다면, 실험군의 위험율이 증 가한다는 의미다. 만약 위험비가 1보다 작다면, 실험군의 위험율이 감소한다는 의미다. 위험률(Hazard Rate) 위험률(Hazard rate)는 일정 시간 간격에서 종료점의 사건이 발생할 확률을 시간 단위 기간으로 나눈 값이다. 종료점 디파글리플로진이라는 혈당강하제의 종료점 예시를..

변수 variable와 동의어들: 입력변수, 피쳐, 독립변수, 종속변수, 출력변수

통계를 배우면서 가장 어려운 부분 중 하나가 용어정리이다. 특히 같은 뜻임에도 다른 표현으로 나타나 있어서 매우 헷갈린 기억이 많다. 변수(variable)는 말 그대로 '변하는 수'이다. 통계학습은 두 변수의 관계를 유추해 나가는 것이다. Y=f(X)에서 f를 추정하는 기법이 통계학습이라고 지난 포스팅에서 다룬 바 있다. [통계 이해땡]예측 vs 추론(통계학습(Statistical Learning)의 목적) 상관관계(Correlation)야식과 몸무게에 상관관계가 있다고 생각하는가? (난 매우 그렇다고 생각한다.) 그렇다면 어떤 상관관계가 있는지 알고 싶을 수 있다. 예를 들어, 'X번 야식을 먹으면, 몸무게 oooo12.tistory.com Y=f(X)에는 변수 Y와 X가 존재한다. 여기서..

});