Tech이야기~!
welcom 자세히보기

Data Science 11

데이터 사이언스 남은 과제들

데이터 사이언스 남은 과제들 - 불편한 진실 데이터는 절대 깨끗하지 않다 당신은 분석의 대부분의 시간을 전처리 단계에서 보내게 될 것이다 95% 일에는 딥러닝(Deep Learning)을 필요로 하지 않는다 실제 분석의 90%는 일반화 선형모형(GLM)으로 해결된다 빅데이터는 단지 도구일 뿐이다 당신은 베이지안 접근을 포용해야 한다 사용자 입장에서는 네가 어떤 방법을 사용했는가는 중요하지 않다 학계와 산업계는 서로 다른 세계이다 프리젠테이션이 핵심이다: 파워포인트 마스터가 되라 모든 모델은 틀렸다, 하지만 몇몇은 유용하다 완전 자동화된 데이터 사이언스같은 것은 없다. 인간이 개입되어야 할 부분이 있다 데이터 사이언스 남은 과제들 - 심슨의 역설

Data Science 2020.05.27

심슨의 역설 Simpson's paradox

Simpson's paradox 심슨의 역설로 유명한 영국 통계학자 에드워드 심슨(1922~) 심슨의 패러독스는 여러 부분 그룹의 자료를 합했을 때의 결과와 각각 부분그룹의 결과가 다른 때를 말한다. 부분을 단순히 합쳤는데 그 결과가 부분의 결과와 달라지는 결과가 발생하는 것은 일반적인 상식으로는 쉽게 이해가 되지 않으므로 Paradox라 한다. 각 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크지는 않다는 의미이다. 영국의 통계학자 에드워드 심슨이 정리한 역설로(심프슨의 역설이라고도 한다) 각각의 변수에 신경 쓰지 않고 전체 통계 결과를 유추하다 일어나는 오류이다. 전체 지원자 합격자 합격률 남학생 1,000명 730명 73% 여학생 1,000명 270명 27% 남학생, 여학생 모두 1,000..

Data Science 2020.05.27

왜 통계치 p값의 오용을 주의해야 하는가?

* 이 글은 소프트웨어 개발자이자 컨설턴트인 Rufus Raghunath가 링크드인에 올린 글, Why you should care about the misuse of p-values in statistics 며칠 전에 'p 값의 오용을 경고하는 통계 학자들'이란 기사가 네이처지에 실렸다. 이 기사는 통계 p 값이 어떻게 해석되는지에 대한 광범위한 이슈이다. https://www.linkedin.com/pulse/why-you-should-care-misuse-p-values-statistics-rufus-raghunath/ Why you should care about the misuse of p-values in statistics Statistics are notoriously hard to und..

Data Science 2019.12.14

(무설치) 온라인 데이터 분석 및 그래프 사이트

https://plot.ly/create/ 온라인으로 데이터 분석을 할수 있는 Site 입니다. How to group trace dataGrouping creates unique traces based off of the unique values in a column of your data. Use group by to visually highlight or style different groups in your data set.Step 1. Select group dataSelect a column of data by which to group. Each unique value in this column will result in a new trace.Step 2. Select traces to gr..

데이터 과학 – 기초 통계 자기회귀이동평균(ARMA) 모형

데이터 과학 – 기초 통계 자기회귀이동평균(ARMA) 모형 https://statkclee.github.io/statistics/stat-time-series-arma.html https://software-carpentry.org/blog/2018/04/mentoring-groups-still-open.html 학습 목표 자기회귀이동평균(ARMA) 모형을 이해한다. 자기회귀이동평균 모형을 식별하는 도구 자기상관함수(ACF), 편자기상관함수(PACF)를 살펴본다. 시계열 모형 식별을 위한 박스-젠킨스 방법론을 적용한다. 1. 박스-젠킨스 방법론 1 박스-젠킨스 방법론은 지난 과거 시계열 데이터를 가장 잘 접합시키는 방법론을 제안했다. 박스-젠킨스 시계열 모형 적합 방법론은 총 3단계로 구성된다. 모형 식..

Data Science 2018.07.12