Investor's wiki

데이터 과학

데이터 과학

데이터 κ³Όν•™μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

λΉ… 데이터 λ₯Ό 기반으둜 μœ μš©ν•œ 정보λ₯Ό μ œκ³΅ν•˜λŠ” μ‘μš© μˆ˜ν•™κ³Ό 톡계 의 ν•œ λΆ„μ•Όμž…λ‹ˆλ‹€.

데이터 κ³Όν•™ λ˜λŠ” 데이터 기반 과학은 μ˜μ‚¬ κ²°μ • λͺ©μ μ„ μœ„ν•΄ 데이터 λ­‰μΉ˜λ₯Ό ν•΄μ„ν•˜κΈ° μœ„ν•΄ κ³„μ‚°μ˜ λ„μ›€μœΌλ‘œ λ‹€μ–‘ν•œ λΆ„μ•Όμ˜ 츑면을 κ²°ν•©ν•©λ‹ˆλ‹€.

데이터 κ³Όν•™ 이해

λ°μ΄ν„°λŠ” νœ΄λŒ€ν°, μ†Œμ…œ λ―Έλ””μ–΄, μ „μž μƒκ±°λž˜ μ‚¬μ΄νŠΈ, 의료 μ„€λ¬Έ 쑰사 및 인터넷 검색을 ν¬ν•¨ν•œ λ‹€μ–‘ν•œ λΆ€λ¬Έ, 채널 및 ν”Œλž«νΌμ—μ„œ κ°€μ Έμ˜΅λ‹ˆλ‹€. μ‚¬μš© κ°€λŠ₯ν•œ λ°μ΄ν„°μ˜ 양이 μ¦κ°€ν•˜λ©΄μ„œ λΉ… 데이터λ₯Ό 기반으둜 ν•˜λŠ” μƒˆλ‘œμš΄ 연ꡬ λΆ„μ•Ό, 즉 λͺ¨λ“  λΆ€λ¬Έ μ—μ„œ 더 λ‚˜μ€ 운영 도ꡬλ₯Ό λ§Œλ“œλŠ” 데 κΈ°μ—¬ν•˜λŠ” λ°©λŒ€ν•œ 데이터 μ„ΈνŠΈκ°€ μ—΄λ¦½λ‹ˆλ‹€ .

기술 및 μˆ˜μ§‘ 기술의 λ°œμ „μœΌλ‘œ 인해 μ§€μ†μ μœΌλ‘œ μ¦κ°€ν•˜λŠ” 데이터 μ•‘μ„ΈμŠ€κ°€ κ°€λŠ₯ν•©λ‹ˆλ‹€. 개인의 ꡬ맀 νŒ¨ν„΄κ³Ό 행동을 λͺ¨λ‹ˆν„°λ§ν•˜κ³  μˆ˜μ§‘λœ 정보λ₯Ό 기반으둜 μ˜ˆμΈ‘ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

κ·ΈλŸ¬λ‚˜ λŠμž„μ—†μ΄ μ¦κ°€ν•˜λŠ” λ°μ΄ν„°λŠ” λΉ„μ •ν˜•μ΄λ©° 효과적인 μ˜μ‚¬ 결정을 μœ„ν•΄ ꡬ문 뢄석이 ν•„μš”ν•©λ‹ˆλ‹€. 이 ν”„λ‘œμ„ΈμŠ€λŠ” κΈ°μ—…μ—κ²Œ λ³΅μž‘ν•˜κ³  μ‹œκ°„μ΄ 많이 μ†Œμš”λ˜λ―€λ‘œ 데이터 과학이 λ“±μž₯ν–ˆμŠ΅λ‹ˆλ‹€.

데이터 κ³Όν•™μ˜ λͺ©μ 

데이터 κ³Όν•™ λ˜λŠ” 데이터 기반 과학은 λΉ… 데이터와 λ¨Έμ‹  λŸ¬λ‹μ„ μ‚¬μš©ν•˜μ—¬ μ˜μ‚¬ 결정을 μœ„ν•΄ 데이터λ₯Ό ν•΄μ„ν•©λ‹ˆλ‹€.

데이터 κ³Όν•™μ˜ κ°„λž΅ν•œ 역사

"데이터 κ³Όν•™"μ΄λΌλŠ” μš©μ–΄λŠ” "컴퓨터 κ³Όν•™"κ³Ό λ™μ˜μ–΄λ‘œ μ‚¬μš©λ˜μ—ˆλ˜ 1960λ…„λŒ€ μ΄ˆλΆ€ν„° μ‚¬μš©λ˜μ—ˆμŠ΅λ‹ˆλ‹€. λ‚˜μ€‘μ— 이 μš©μ–΄λŠ” λ‹€μ–‘ν•œ μ‘μš© ν”„λ‘œκ·Έλž¨μ—μ„œ μ‚¬μš©λ˜λŠ” 데이터 처리 방법에 λŒ€ν•œ 쑰사λ₯Ό μ •μ˜ν•˜κΈ° μœ„ν•΄ κ΅¬λ³„λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

2001λ…„ William S. ClevelandλŠ” 독립적인 λΆ„μ•Όλ₯Ό μ§€μΉ­ν•˜κΈ° μœ„ν•΄ "데이터 κ³Όν•™"μ΄λΌλŠ” μš©μ–΄λ₯Ό 처음으둜 μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€. Harvard Business ReviewλŠ” 2012년에 "21μ„ΈκΈ°μ˜ κ°€μž₯ μ„Ήμ‹œν•œ 직업"으둜 데이터 κ³Όν•™μžμ˜ 역할을 μ„€λͺ…ν•˜λŠ” 기사λ₯Ό λ°œν‘œν–ˆμŠ΅λ‹ˆλ‹€.

데이터 과학이 μ μš©λ˜λŠ” 방식

데이터 과학은 데이터 μ„ΈνŠΈλ₯Ό μˆ˜μ§‘ν•˜κ³ , μ²˜λ¦¬ν•˜κ³ , 데이터 μ„ΈνŠΈμ—μ„œ 톡찰λ ₯을 λ„μΆœν•˜κ³ , μ„ΈνŠΈμ—μ„œ 의미 μžˆλŠ” 데이터λ₯Ό μΆ”μΆœν•˜κ³ , μ˜μ‚¬ 결정을 μœ„ν•΄ ν•΄μ„ν•˜κΈ° μœ„ν•΄ μ—¬λŸ¬ λΆ„μ•Όμ˜ 도ꡬλ₯Ό ν†΅ν•©ν•©λ‹ˆλ‹€. 데이터 κ³Όν•™ λΆ„μ•Όλ₯Ό κ΅¬μ„±ν•˜λŠ” ν•™λ¬Έ λΆ„μ•Όμ—λŠ” λ§ˆμ΄λ‹, 톡계, 기계 ν•™μŠ΅, 뢄석 및 ν”„λ‘œκ·Έλž˜λ°μ΄ ν¬ν•¨λ©λ‹ˆλ‹€.

데이터 λ§ˆμ΄λ‹ 은 λ³΅μž‘ν•œ 데이터 μ„ΈνŠΈμ— μ•Œκ³ λ¦¬μ¦˜μ„ μ μš©ν•˜μ—¬ νŒ¨ν„΄μ„ λ“œλŸ¬λ‚Έ λ‹€μŒ μ„ΈνŠΈμ—μ„œ μœ μš©ν•˜κ³  κ΄€λ ¨μ„± 높은 데이터λ₯Ό μΆ”μΆœν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. 톡계 μΈ‘μ • λ˜λŠ” 예츑 뢄석 은 이 μΆ”μΆœλœ 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ 데이터가 과거에 μΌμ–΄λ‚œ 일을 기반으둜 λ―Έλž˜μ— λ°œμƒν•  κ°€λŠ₯성이 μžˆλŠ” 이벀트λ₯Ό μΈ‘μ •ν•©λ‹ˆλ‹€.

기계 ν•™μŠ΅μ€ 인간이 평생 μ²˜λ¦¬ν•  수 μ—†λŠ” λŒ€λŸ‰μ˜ 데이터λ₯Ό μ²˜λ¦¬ν•˜λŠ” 인곡 지λŠ₯ λ„κ΅¬μž…λ‹ˆλ‹€. λ¨Έμ‹  λŸ¬λ‹μ€ μ΄λ²€νŠΈκ°€ λ°œμƒν•  κ°€λŠ₯성을 예츑된 μ‹œκ°„μ— μ‹€μ œλ‘œ λ°œμƒν•œ 것과 μΌμΉ˜μ‹œμΌœ 예츑 λΆ„μ„μ—μ„œ μ œμ‹œλœ μ˜μ‚¬ κ²°μ • λͺ¨λΈμ„ μ™„μ„±ν•©λ‹ˆλ‹€.

μ•Œκ³ λ¦¬μ¦˜ 을 μ‚¬μš©ν•˜μ—¬ 기계 ν•™μŠ΅ λ‹¨κ³„μ—μ„œ κ΅¬μ‘°ν™”λœ 데이터λ₯Ό μˆ˜μ§‘ν•˜κ³  μ²˜λ¦¬ν•©λ‹ˆλ‹€ . λΆ„μ„κ°€λŠ” μ˜μ‚¬ κ²°μ • νŒ€μ΄ 이해할 수 μžˆλŠ” 응집λ ₯ μžˆλŠ” μ–Έμ–΄λ‘œ 데이터λ₯Ό 해석, λ³€ν™˜ 및 μš”μ•½ν•©λ‹ˆλ‹€. 데이터 과학은 거의 λͺ¨λ“  상황에 적용되며 데이터 κ³Όν•™μžμ˜ 역할이 진화함에 따라 데이터 μ•„ν‚€ν…μ²˜, 데이터 μ—”μ§€λ‹ˆμ–΄λ§ 및 데이터 관리λ₯Ό ν¬ν•¨ν•˜λ„λ‘ ν•΄λ‹Ή λΆ„μ•Όκ°€ ν™•μž₯될 κ²ƒμž…λ‹ˆλ‹€.

λΉ λ₯Έ 사싀

λ―Έκ΅­ 노동 톡계ꡭ(US Bureau of Labor Statistics)에 λ”°λ₯΄λ©΄ 컴퓨터 및 정보 연ꡬ κ³Όν•™μžμ— λŒ€ν•œ μˆ˜μš”λŠ” 2019λ…„μ—μ„œ 2029λ…„κΉŒμ§€ 15% 증가할 κ²ƒμœΌλ‘œ μ˜ˆμƒλ˜λ©° μ΄λŠ” λ‹€λ₯Έ 직쒅보닀 훨씬 λΉ λ¦…λ‹ˆλ‹€.

데이터 κ³Όν•™μž

데이터 κ³Όν•™μžλŠ” λ§Žμ€ 경우 νšŒμ‚¬ μš΄μ˜μ„ κ°œμ„ ν•˜κΈ° μœ„ν•΄ λ§Žμ€ μ–‘μ˜ 데이터λ₯Ό μˆ˜μ§‘, 뢄석 및 ν•΄μ„ν•©λ‹ˆλ‹€. 데이터 κ³Όν•™μž μ „λ¬Έκ°€λŠ” 데이터λ₯Ό λΆ„μ„ν•˜κ³  데이터 μ„ΈνŠΈμ˜ νŒ¨ν„΄, μΆ”μ„Έ 및 관계λ₯Ό κ°μ§€ν•˜λŠ” 톡계 λͺ¨λΈμ„ κ°œλ°œν•©λ‹ˆλ‹€. 이 μ •λ³΄λŠ” μ†ŒλΉ„μž 행동을 μ˜ˆμΈ‘ν•˜κ±°λ‚˜ λΉ„μ¦ˆλ‹ˆμŠ€ 및 운영 μœ„ν—˜μ„ μ‹λ³„ν•˜λŠ” 데 μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

데이터 κ³Όν•™μžμ˜ 역할은 μ’…μ’… μ˜μ‚¬ κ²°μ •μžμ—κ²Œ 문제 해결에 μ μš©ν•  수 있고 이해할 수 μžˆλŠ” λ°©μ‹μœΌλ‘œ 데이터 톡찰λ ₯을 μ œμ‹œν•˜λŠ” μŠ€ν† λ¦¬ν…”λŸ¬μ˜ μ—­ν• μž…λ‹ˆλ‹€.

μ˜€λŠ˜λ‚ μ˜ 데이터 κ³Όν•™

기업은 μ†ŒλΉ„μžμ—κ²Œ κ°€μΉ˜λ₯Ό μ œκ³΅ν•˜κΈ° μœ„ν•΄ 일상 ν™œλ™μ— λΉ… 데이터와 데이터 과학을 μ μš©ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. 은행 기관은 사기 탐지 성곡을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄ λΉ… 데이터λ₯Ό ν™œμš©ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€. μžμ‚° 관리 νšŒμ‚¬λŠ” λΉ… 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ μ§€μ •λœ μ‹œκ°„μ— μœ κ°€ 증ꢌ 가격이 였λ₯΄κ±°λ‚˜ 내릴 κ°€λŠ₯성을 μ˜ˆμΈ‘ν•©λ‹ˆλ‹€.

Netflix와 같은 νšŒμ‚¬λŠ” λΉ… 데이터λ₯Ό λ§ˆμ΄λ‹ν•˜μ—¬ μ‚¬μš©μžμ—κ²Œ μ œκ³΅ν•  μ œν’ˆμ„ κ²°μ •ν•©λ‹ˆλ‹€. λ˜ν•œ NetflixλŠ” μ•Œκ³ λ¦¬μ¦˜μ„ μ‚¬μš©ν•˜μ—¬ μ‹œμ²­ 기둝을 기반으둜 μ‚¬μš©μžμ—κ²Œ 맞좀 μΆ”μ²œμ„ μ œκ³΅ν•©λ‹ˆλ‹€. 데이터 과학은 λΉ λ₯Έ μ†λ„λ‘œ μ§„ν™”ν•˜κ³  있으며 κ·Έ μ‘μš© ν”„λ‘œκ·Έλž¨μ€ 미래의 삢을 계속 λ³€ν™”μ‹œν‚¬ κ²ƒμž…λ‹ˆλ‹€.

ν•˜μ΄λΌμ΄νŠΈ

  • 데이터 과학은 기계 ν•™μŠ΅ 및 인곡 지λŠ₯κ³Ό 같은 κΈ°μˆ μ„ μ‚¬μš©ν•˜μ—¬ 의미 μžˆλŠ” 정보λ₯Ό μΆ”μΆœν•˜κ³  미래의 νŒ¨ν„΄ 및 행동을 μ˜ˆμΈ‘ν•©λ‹ˆλ‹€.

  • 기술이 λ°œμ „ν•˜κ³  빅데이터 μˆ˜μ§‘ 및 뢄석 기술이 고도화됨에 따라 데이터 μ‚¬μ΄μ–ΈμŠ€ λΆ„μ•Όκ°€ μ„±μž₯ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.

  • 기술의 λ°œμ „, 인터넷, μ†Œμ…œ λ―Έλ””μ–΄ 및 기술의 μ‚¬μš©μ€ λͺ¨λ‘ λΉ… 데이터에 λŒ€ν•œ μ•‘μ„ΈμŠ€λ₯Ό μ¦κ°€μ‹œμΌ°μŠ΅λ‹ˆλ‹€.

μžμ£Όν•˜λŠ” 질문

데이터 κ³Όν•™μ˜ 단점은 λ¬΄μ—‡μž…λ‹ˆκΉŒ?

Cambridge Analytica 와 같은 μ—¬λŸ¬ μŠ€μΊ”λ“€μ— λΉ„μΆ”μ–΄ λΉ„νŒμ„ λ°›μ•˜μŠ΅λ‹ˆλ‹€.

데이터 과학은 무엇에 μœ μš©ν•©λ‹ˆκΉŒ?

데이터 과학은 κ΅¬μ‘°ν™”λ˜μ§€ μ•Šμ•˜κ±°λ‚˜ 관련이 μ—†μ–΄ λ³΄μ΄λŠ” λ°μ΄ν„°μ—μ„œ νŒ¨ν„΄μ„ μ‹λ³„ν•˜μ—¬ μΆ”λ‘ κ³Ό μ˜ˆμΈ‘μ„ κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€. μ‚¬μš©μž 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” 기술 νšŒμ‚¬λŠ” κΈ°μˆ μ„ μ‚¬μš©ν•˜μ—¬ μˆ˜μ§‘λœ 정보λ₯Ό μœ μš©ν•˜κ±°λ‚˜ μˆ˜μ΅μ„± μžˆλŠ” μ •λ³΄μ˜ μ†ŒμŠ€λ‘œ μ „ν™˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

λͺ¨λ“  과학이 데이터λ₯Ό μ‚¬μš©ν•˜μ§€ μ•ŠμŠ΅λ‹ˆκΉŒ?

λ„€, λͺ¨λ“  κ²½ν—˜κ³Όν•™μ€ 데이터λ₯Ό μˆ˜μ§‘ν•˜κ³  λΆ„μ„ν•©λ‹ˆλ‹€. 데이터 과학을 κ΅¬λΆ„ν•˜λŠ” 것은 λΉ… 데이터 μ„ΈνŠΈλ₯Ό μ²˜λ¦¬ν•˜κ³  λΆ„μ„ν•˜κΈ° μœ„ν•΄ μ •κ΅ν•œ 계산 방법과 기계 ν•™μŠ΅ κΈ°μˆ μ„ μ‚¬μš©ν•˜λŠ” 것을 μ „λ¬ΈμœΌλ‘œ ν•œλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. μ’…μ’… μ΄λŸ¬ν•œ 데이터 μ„ΈνŠΈλŠ” λ„ˆλ¬΄ ν¬κ±°λ‚˜ λ³΅μž‘ν•˜μ—¬ κΈ°μ‘΄ 방법을 μ‚¬μš©ν•˜μ—¬ μ μ ˆν•˜κ²Œ 뢄석할 수 μ—†μŠ΅λ‹ˆλ‹€.