Have a Yoonvely Day :D

Sin prisa pero sin pausa

이상다반사

Cloud-Security Training

7/14

yoonvely 2021. 7. 18. 19:00
728x90

데이터 숫자, 글자 --> 그림, 동영상, 음악

프로그램을 하기 위해서 기억해야 할 것 변수의 저장

변수 = Data

JSON File 리스트, 튜플, 딕셔너리

음악 -> JSON파일 변환(속성) -> 읽기 -> 분류(if 이용) -> 저장(for,while구문 이용) -> 서비스 목적에 맞게 처리 -> 서비스 UI 생성 -> 서비스 >>>> 프로그래밍

초기에는 DataDatabase 한곳에 저장

Data Lake : 여러형태의 원형데이터들을 모아놓은 장소, 저장소, 집합 -> 데이터 관리 방식을 변경 / Data 저장공간 새로운 Data 생성되는 시간 -> 실시간으로 분류.처리 -> 서비스 --> Bigdatabase 분산저장

구조적으로 잘 정리된 데이터 정형데이터

구조적으로 조금 정리된 데이터 반정형데이터

구조적으로 정리되지 않은 데이터 비정형데이터

 

빅데이터와 데이터레이크를 사용하기 위한 기술

1. 동적 data(Bulk) 저장을 수집

2. Data 접속 저장함수 인프라 환경

3. Data 처리하는 기술

4. Data 품질

5. Metadata 관리(속성관리)

6. 무결성 유지

7. AI 사용 여부 <- 최신기술

 

ETL : Extract / Transform / Load

추출 / 변환 / 적재

데이터를 추출 : 기존 테이블에 안에 있는 데이터를 추출

SELECT 명령어로 데이터를 추출

데이터 변환 : 날짜데이터를 가져와서 지역 맞추어서 형식을 변환

//| //| //

데이터 저장 : 변환 데이터를 저장

INSERT 명령어를 이용해서 새로운 테이블에 저장 (유럽/아시아/북미)

 

Data Lake / DW(Data Warehouse)

DW : 기업에 필요한 데이터를 변환하여 가지고 있는 데이터

ETL 필요함

저장된 데이터에 한해서 어떤 결과 답을 구할 수 있음

읽기/ 수정 / 삭제

 

Data Lake : 원시 형태의 데이터 제공 --> 데이터를 수집하는 것

데이터 분석을 잘하면 원하는 결과를 구할 수 있음

원시데이터 : 개인 / 기업 / 공공 데이터를 수집

읽기만 가능 (절대 수정하면 안됨) : 튜플 형식으로 데이터를 저장

빅데이터 분석도구 활용

필요시 DW로 변경하여 사용한다.

 

Data LakeDW를 보완하거나 대체해서 산업계 전반에 막대한 데이터를 제공

: 스타트업 / 필요한 데이터 수집

단일 데이터 모델에서 자유롭다

: 정형 / 비정형 데이터를 수집(블로그 포스트/sns 데이터 : / 그림 / 영상)

 

음성 / 영상 등의 스트리밍 데이터 처리 가능

유튜브 / 음악

 

사전 준비작업 간단 : 사용을 할 때에만, 수집할 때는 힘듬 / 사용을 할 때는 편함

데이터 저장소 유연함 / 쉽게 접근 가능

: 데이터베이스 저장하지 않고 디스크 등(파일 형식 등)으로 저장하여 사용

확장성 좋음

---------------------

단점 (지금은 단점들이 많이 사라지긴 함)

가시성 없음 : 거버넌스를 고려하지 않았다. - 무조건 데이터 저장 후 끝

표준화 되어있지 않고 불필요한 데이터가 저장될 수 있음

 

거버넌스 : 태그(메타데이터) 없이 수정 속성값 없이 수집

어떤 속성값을 기준으로 수집되어야하는지 정책/기준이 없었음 (초기에)

 

복잡성

수집-분류 : 어느 기술 검색엔진

 

검색 엔진 : 크롤러(Crawler / Crawling)

 

데이터 : SNS에서 수집해서 활용, 공공기관에서 제공하는 데이터 활용

 

카카오 / 네이버 / 공공데이터

: Facebook / Twitter / instagram

개인 데이터 유사한 데이터 수집

유사한 관심사 수집

특정 이슈() 확인 후 연동?

관심사에 맞추어서 서비스를 제공?

 

HDFS(Hadoop File System)

그림 + 데이터 => 인포그래픽

 

데이터 수집 시 규칙(Crawling)규칙 -> 법의 범위 / 저작권 위반 주의!

사이트명기 후 사이트로 이동하는 링크 / 사진 게시 후 링크 표시

수집 범위 지정

user-agent : * 전체

Allow : /

Disallow : /경로명

 

*** robot.txt 파일이 있어야 하는 이유 알아두기

 

모듈프로젝트 1 : SNS 데이터 / 공공데이터

Naver / Facebook / Instagram / Twitter / 공공

 

json파일로 가져오게 유도

파라미터는 첫 번째뉴스부터 100번째 뉴스까지 호출

그렇게 url완성

보낸 다음 결과를 받아야 함

 

printreturn으로 바꿈

 

내일 53pass에 관한 부분 코딩 마저 할 예정

 

 

 

 웹크롤링 VS API

https://tonyaround.com/%EC%9B%B9-%ED%81%AC%EB%A1%A4%EB%A7%81-vs-api-%EB%88%84%EA%B0%80-%EC%8A%B9%EC%9E%90%EC%9D%B8%EA%B0%80-%EB%81%9D%EB%82%98%EC%A7%80-%EC%95%8A%EB%8A%94-%EC%9D%B4%EC%8A%88/

 

 

 

'Cloud-Security Training' 카테고리의 다른 글

module project  (0) 2021.07.23
json 파일 합치기  (0) 2021.07.18
7/16  (0) 2021.07.18
7/15  (0) 2021.07.18
7/13  (0) 2021.07.18