Investor's wiki

데이터 수집

데이터 수집

데이터 λ§ˆμ΄λ‹μ΄λž€ λ¬΄μ—‡μž…λ‹ˆκΉŒ?

데이터 λ§ˆμ΄λ‹μ€ κΈ°μ—…μ—μ„œ μ›μ‹œ 데이터λ₯Ό μœ μš©ν•œ μ •λ³΄λ‘œ λ³€ν™˜ν•˜λŠ” 데 μ‚¬μš©ν•˜λŠ” ν”„λ‘œμ„ΈμŠ€μž…λ‹ˆλ‹€. μ†Œν”„νŠΈμ›¨μ–΄λ₯Ό μ‚¬μš©ν•˜μ—¬ λŒ€λŸ‰μ˜ λ°μ΄ν„°μ—μ„œ νŒ¨ν„΄μ„ 찾음으둜써 기업은 고객에 λŒ€ν•΄ 더 많이 μ•Œκ²Œ λ˜μ–΄ 보닀 효과적인 λ§ˆμΌ€νŒ… μ „λž΅μ„ κ°œλ°œν•˜κ³  판맀λ₯Ό 늘리며 λΉ„μš©μ„ μ ˆκ°ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 데이터 λ§ˆμ΄λ‹μ€ 효과적인 데이터 μˆ˜μ§‘,. μ°½κ³  보관 및 컴퓨터 μ²˜λ¦¬μ— 달렀 μžˆμŠ΅λ‹ˆλ‹€.

데이터 λ§ˆμ΄λ‹ μž‘λ™ 방식

데이터 λ§ˆμ΄λ‹μ—λŠ” 의미 μžˆλŠ” νŒ¨ν„΄κ³Ό μΆ”μ„Έλ₯Ό μˆ˜μ§‘ν•˜κΈ° μœ„ν•΄ 큰 정보 블둝을 νƒμƒ‰ν•˜κ³  λΆ„μ„ν•˜λŠ” μž‘μ—…μ΄ ν¬ν•¨λ©λ‹ˆλ‹€. λ°μ΄ν„°λ² μ΄μŠ€ λ§ˆμΌ€νŒ…, μ‹ μš© μœ„ν—˜ 관리, 사기 탐지, 슀팸 이메일 필터링과 같은 λ‹€μ–‘ν•œ λ°©λ²•μœΌλ‘œ μ‚¬μš©λ˜κ±°λ‚˜ μ‚¬μš©μžμ˜ κ°μ •μ΄λ‚˜ μ˜κ²¬μ„ μ‹λ³„ν•˜λŠ” 데에도 μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

데이터 λ§ˆμ΄λ‹ ν”„λ‘œμ„ΈμŠ€λŠ” 5λ‹¨κ³„λ‘œ λ‚˜λ‰©λ‹ˆλ‹€. 첫째, 쑰직은 데이터λ₯Ό μˆ˜μ§‘ν•˜μ—¬ 데이터 μ›¨μ–΄ν•˜μš°μŠ€μ— λ‘œλ“œν•©λ‹ˆλ‹€. λ‹€μŒμœΌλ‘œ 사내 μ„œλ²„λ‚˜ ν΄λΌμš°λ“œμ—μ„œ 데이터λ₯Ό μ €μž₯ν•˜κ³  κ΄€λ¦¬ν•©λ‹ˆλ‹€. λΉ„μ¦ˆλ‹ˆμŠ€ 뢄석가, 관리 νŒ€ 및 정보 기술 μ „λ¬Έκ°€λŠ” 데이터에 μ•‘μ„ΈμŠ€ν•˜κ³  데이터λ₯Ό ꡬ성할 방법을 κ²°μ •ν•©λ‹ˆλ‹€. 그런 λ‹€μŒ μ‘μš© ν”„λ‘œκ·Έλž¨ μ†Œν”„νŠΈμ›¨μ–΄λŠ” μ‚¬μš©μžμ˜ κ²°κ³Όλ₯Ό 기반으둜 데이터λ₯Ό μ •λ ¬ν•˜κ³  λ§ˆμ§€λ§‰μœΌλ‘œ μ΅œμ’… μ‚¬μš©μžλŠ” 데이터λ₯Ό κ·Έλž˜ν”„λ‚˜ ν‘œμ™€ 같이 κ³΅μœ ν•˜κΈ° μ‰¬μš΄ ν˜•μ‹μœΌλ‘œ ν‘œμ‹œν•©λ‹ˆλ‹€.

데이터 μ›¨μ–΄ν•˜μš°μ§• 및 λ§ˆμ΄λ‹ μ†Œν”„νŠΈμ›¨μ–΄

데이터 λ§ˆμ΄λ‹ ν”„λ‘œκ·Έλž¨μ€ μ‚¬μš©μžκ°€ μš”μ²­ν•œ λ‚΄μš©μ„ 기반으둜 λ°μ΄ν„°μ˜ 관계와 νŒ¨ν„΄μ„ λΆ„μ„ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, νšŒμ‚¬λŠ” 데이터 λ§ˆμ΄λ‹ μ†Œν”„νŠΈμ›¨μ–΄λ₯Ό μ‚¬μš©ν•˜μ—¬ 정보 클래슀λ₯Ό 생성할 수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, λ ˆμŠ€ν† λž‘μ—μ„œ 데이터 λ§ˆμ΄λ‹μ„ μ‚¬μš©ν•˜μ—¬ νŠΉμ • μŠ€νŽ˜μ…œμ„ μ œκ³΅ν•΄μ•Ό ν•˜λŠ” μ‹œκΈ°λ₯Ό κ²°μ •ν•˜λ €κ³  ν•œλ‹€κ³  κ°€μ •ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. μˆ˜μ§‘ν•œ 정보λ₯Ό μ‚΄νŽ΄λ³΄κ³  고객이 μ–Έμ œ λ°©λ¬Έν•˜κ³  무엇을 μ£Όλ¬Έν•˜λŠ”μ§€μ— 따라 클래슀λ₯Ό λ§Œλ“­λ‹ˆλ‹€.

λ‹€λ₯Έ κ²½μš°μ— 데이터 λ§ˆμ΄λ„ˆλŠ” 논리적 관계λ₯Ό 기반으둜 정보 ν΄λŸ¬μŠ€ν„°λ₯Ό μ°Ύκ±°λ‚˜ μ—°κ΄€ 및 순차적 νŒ¨ν„΄μ„ 보고 μ†ŒλΉ„μž ν–‰λ™μ˜ κ²½ν–₯에 λŒ€ν•œ 결둠을 λ„μΆœν•©λ‹ˆλ‹€.

μ›¨μ–΄ν•˜μš°μ§•μ€ 데이터 λ§ˆμ΄λ‹μ˜ μ€‘μš”ν•œ μΈ‘λ©΄μž…λ‹ˆλ‹€. μ›¨μ–΄ν•˜μš°μ§•μ€ νšŒμ‚¬μ—μ„œ 데이터λ₯Ό ν•˜λ‚˜μ˜ λ°μ΄ν„°λ² μ΄μŠ€ λ˜λŠ” ν”„λ‘œκ·Έλž¨μœΌλ‘œ 쀑앙 μ§‘μ€‘ν™”ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. 데이터 μ›¨μ–΄ν•˜μš°μŠ€λ₯Ό 톡해 쑰직은 νŠΉμ • μ‚¬μš©μžκ°€ λΆ„μ„ν•˜κ³  μ‚¬μš©ν•  데이터 μ„Έκ·Έλ¨ΌνŠΈλ₯Ό 뢄리할 수 μžˆμŠ΅λ‹ˆλ‹€.

κ·ΈλŸ¬λ‚˜ λ‹€λ₯Έ κ²½μš°μ—λŠ” 뢄석가가 μ›ν•˜λŠ” λ°μ΄ν„°λ‘œ μ‹œμž‘ν•˜μ—¬ ν•΄λ‹Ή 사양을 기반으둜 데이터 μ›¨μ–΄ν•˜μš°μŠ€ λ₯Ό 생성할 수 μžˆμŠ΅λ‹ˆλ‹€. κΈ°μ—… 및 기타 주체가 데이터λ₯Ό κ΅¬μ„±ν•˜λŠ” 방식에 관계없이 κ²½μ˜μ§„μ˜ μ˜μ‚¬ κ²°μ • ν”„λ‘œμ„ΈμŠ€λ₯Ό μ§€μ›ν•˜λŠ” 데 데이터λ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€.

데이터 λ§ˆμ΄λ‹ 및 μ†Œμ…œ λ―Έλ””μ–΄

데이터 λ§ˆμ΄λ‹μ˜ κ°€μž₯ μˆ˜μ΅μ„± μžˆλŠ” μ‘μš© ν”„λ‘œκ·Έλž¨ 쀑 ν•˜λ‚˜λŠ” μ†Œμ…œ λ―Έλ””μ–΄μ˜ μ‘μš© ν”„λ‘œκ·Έλž¨μ΄μ—ˆμŠ΅λ‹ˆλ‹€. Facebook(Meta μ†Œμœ ), TikTok, Instagram 및 Twitter와 같은 ν”Œλž«νΌμ€ νƒ€κ²Ÿ λ§ˆμΌ€νŒ… κ΄‘κ³ λ₯Ό 보내기 μœ„ν•΄ 개인 μ‚¬μš©μžμ— λŒ€ν•œ 데이터λ₯Ό μˆ˜μ§‘ν•˜μ—¬ μ„ ν˜Έλ„λ₯Ό μΆ”λ‘ ν•©λ‹ˆλ‹€. 이 λ°μ΄ν„°λŠ” λ˜ν•œ μ†ŒλΉ„μž μ œν’ˆμ— λŒ€ν•œ 것이든 μ„ κ±°μ—μ„œ νˆ¬ν‘œν•  λŒ€μƒμ΄λ“  μ‚¬μš©μž 행동에 영ν–₯을 미치고 μ„ ν˜Έλ„λ₯Ό λ³€κ²½ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€.

μ†Œμ…œ λ―Έλ””μ–΄μ˜ 데이터 λ§ˆμ΄λ‹μ€ μ—¬λŸ¬ 쑰사 λ³΄κ³ μ„œλ₯Ό 톡해 큰 λ…ΌμŸκ±°λ¦¬κ°€ λ˜μ—ˆμœΌλ©° λ§ˆμ΄λ‹ μ‚¬μš©μžμ˜ 데이터가 μ–Όλ§ˆλ‚˜ μ‚¬μ•…ν•œμ§€ λ³΄μ—¬μ€λ‹ˆλ‹€.

Cambridge Analytica μŠ€μΊ”λ“€μ€ μ†Œμ…œ λ―Έλ””μ–΄ νšŒμ‚¬κ°€ μ‚¬μš©μžλ₯Ό ν¬μƒμ‹œν‚€λ©΄μ„œ 데이터 λ§ˆμ΄λ‹μ„ μ‚¬μš©ν•  수 μžˆλŠ” λ°©λ²•μ˜ λŒ€ν‘œμ μΈ μ˜ˆμž…λ‹ˆλ‹€.

데이터 λ§ˆμ΄λ‹μ˜ 예

μ‹λ£Œν’ˆμ μ€ 데이터 λ§ˆμ΄λ‹ 기술의 잘 μ•Œλ €μ§„ μ‚¬μš©μžμž…λ‹ˆλ‹€. λ§Žμ€ μŠˆνΌλ§ˆμΌ“μ€ λΉ„νšŒμ›μ—κ²ŒλŠ” μ œκ³΅λ˜μ§€ μ•ŠλŠ” ν• μΈλœ κ°€κ²©μœΌλ‘œ μ΄μš©ν•  수 μžˆλŠ” 무료 λ‘œμ—΄ν‹° μΉ΄λ“œ λ₯Ό κ³ κ°μ—κ²Œ μ œκ³΅ν•©λ‹ˆλ‹€. 이 μΉ΄λ“œλ₯Ό μ‚¬μš©ν•˜λ©΄ μƒμ μ—μ„œ λˆ„κ°€ 무엇을 μ–Έμ œ, μ–Όλ§ˆμ— κ΅¬λ§€ν•˜λŠ”μ§€ μ‰½κ²Œ 좔적할 수 μžˆμŠ΅λ‹ˆλ‹€. 데이터λ₯Ό λΆ„μ„ν•œ ν›„ 맀μž₯은 이 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ κ³ κ°μ—κ²Œ ꡬ맀 μŠ΅κ΄€μ„ λŒ€μƒμœΌλ‘œ ν•˜λŠ” 쿠폰을 μ œκ³΅ν•˜κ³  μƒν’ˆμ„ νŒλ§€ν•  λ•Œ λ˜λŠ” μ •κ°€λ‘œ νŒλ§€ν•  λ•Œλ₯Ό κ²°μ •ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

데이터 λ§ˆμ΄λ‹μ€ νšŒμ‚¬κ°€ νŠΉμ • 가섀을 증λͺ…ν•˜κΈ° μœ„ν•΄ 전체 μƒ˜ν”Œ 그룹을 λŒ€ν‘œν•˜μ§€ μ•ŠλŠ” μ„ νƒλœ μ •λ³΄λ§Œ μ‚¬μš©ν•˜λŠ” 경우 우렀의 원인이 될 수 μžˆμŠ΅λ‹ˆλ‹€.

데이터 λ§ˆμ΄λ‹ ν”„λ‘œμ„ΈμŠ€λŠ” 검색 엔진 기술 및 μ›Ήμ‚¬μ΄νŠΈ μΆ”μ²œ ν”„λ‘œκ·Έλž¨μ„ λΉ„λ‘―ν•œ μ• ν”Œλ¦¬μΌ€μ΄μ…˜μ„ κ΅¬λ™ν•˜λŠ” 기계 ν•™μŠ΅ λͺ¨λΈμ„ κ΅¬μΆ•ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€.

ν•˜μ΄λΌμ΄νŠΈ

  • 데이터 λ§ˆμ΄λ‹μ€ 고객이 무엇에 관심이 μžˆκ±°λ‚˜ ꡬ맀λ₯Ό μ›ν•˜λŠ”μ§€ νŒŒμ•…ν•˜λŠ” 것뢀터 사기 탐지 및 슀팸 필터링에 이λ₯΄κΈ°κΉŒμ§€ κΈ°μ—…μ—μ„œ μ‚¬μš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

  • 데이터 λ§ˆμ΄λ‹ ν”„λ‘œκ·Έλž¨μ€ μ‚¬μš©μžκ°€ μš”μ²­ν•˜κ±°λ‚˜ μ œκ³΅ν•˜λŠ” 정보λ₯Ό 기반으둜 λ°μ΄ν„°μ˜ νŒ¨ν„΄κ³Ό 연결을 λΆ„ν•΄ν•©λ‹ˆλ‹€.

  • 데이터 λ§ˆμ΄λ‹μ€ 좔세와 νŒ¨ν„΄μ„ μ‹λ³„ν•˜κΈ° μœ„ν•΄ λŒ€λŸ‰μ˜ 정보λ₯Ό λΆ„μ„ν•˜λŠ” ν”„λ‘œμ„ΈμŠ€μž…λ‹ˆλ‹€.

  • μ†Œμ…œ λ―Έλ””μ–΄ νšŒμ‚¬λŠ” μˆ˜μ΅μ„ μ°½μΆœν•˜κΈ° μœ„ν•΄ 데이터 λ§ˆμ΄λ‹ κΈ°μˆ μ„ μ‚¬μš©ν•˜μ—¬ μ‚¬μš©μžλ₯Ό μƒν’ˆν™”ν•©λ‹ˆλ‹€.

  • μ΄λŸ¬ν•œ 데이터 λ§ˆμ΄λ‹μ˜ μ‚¬μš©μ€ 졜근 λΉ„νŒμ„ λ°›κ³  μžˆμŠ΅λ‹ˆλ‹€. μ‚¬μš©μžλŠ” 특히 μ„ ν˜Έλ„μ— 영ν–₯을 λ―ΈμΉ˜λŠ” 데 μ‚¬μš©λ˜λŠ” 경우 개인 μ •λ³΄μ—μ„œ λ°œμƒν•˜λŠ” 데이터 λ§ˆμ΄λ‹μ„ μ’…μ’… μΈμ‹ν•˜μ§€ λͺ»ν•©λ‹ˆλ‹€.

μžμ£Όν•˜λŠ” 질문

데이터 λ§ˆμ΄λ‹μ€ μ–΄λ–»κ²Œ μ΄λ£¨μ–΄μ§€λ‚˜μš”?

데이터 λ§ˆμ΄λ‹μ€ λΉ… 데이터와 기계 ν•™μŠ΅ 및 기타 인곡 지λŠ₯(AI)을 ν¬ν•¨ν•œ κ³ κΈ‰ μ»΄ν“¨νŒ… ν”„λ‘œμ„ΈμŠ€μ— μ˜μ‘΄ν•©λ‹ˆλ‹€. λͺ©ν‘œλŠ” κ΅¬μ‘°ν™”λ˜μ§€ μ•Šμ•˜κ±°λ‚˜ λŒ€κ·œλͺ¨ 데이터 μ„ΈνŠΈμ—μ„œ μΆ”λ‘ μ΄λ‚˜ 예츑으둜 μ΄μ–΄μ§ˆ 수 μžˆλŠ” νŒ¨ν„΄μ„ μ°ΎλŠ” κ²ƒμž…λ‹ˆλ‹€.

데이터 λ§ˆμ΄λ‹μ˜ 또 λ‹€λ₯Έ μš©μ–΄λŠ” λ¬΄μ—‡μž…λ‹ˆκΉŒ?

데이터 λ§ˆμ΄λ‹μ€ λ˜ν•œ 덜 μ‚¬μš©λ˜λŠ” μš©μ–΄ 지식 발견 데이터 λ˜λŠ” KDD둜 μ§„ν–‰λ©λ‹ˆλ‹€.

λˆ„κ°€ 데이터 λ§ˆμ΄λ‹μ„ μ‚¬μš©ν•©λ‹ˆκΉŒ?

데이터 λ§ˆμ΄λ‹ μ‘μš© ν”„λ‘œκ·Έλž¨μ€ 금육 λΆ€λ¬Έμ—μ„œ μ‹œμž₯의 νŒ¨ν„΄μ„ μ°ΎκΈ° μœ„ν•΄ 잠재적인 λ³΄μ•ˆ μœ„ν˜‘μ„ μ‹λ³„ν•˜λ €λŠ” 정뢀에 이λ₯΄κΈ°κΉŒμ§€ λ‹€μ–‘ν•©λ‹ˆλ‹€. κΈ°μ—…, 특히 온라인 및 μ†Œμ…œ λ―Έλ””μ–΄ νšŒμ‚¬λŠ” μ‚¬μš©μžμ— λŒ€ν•œ 데이터 λ§ˆμ΄λ‹μ„ μ‚¬μš©ν•˜μ—¬ νŠΉμ • μ‚¬μš©μž 집합을 λŒ€μƒμœΌλ‘œ ν•˜λŠ” μˆ˜μ΅μ„± μžˆλŠ” κ΄‘κ³  및 λ§ˆμΌ€νŒ… μΊ νŽ˜μΈμ„ λ§Œλ“­λ‹ˆλ‹€.