Networks/Streamlit&Crawling 6

SK networks AI Camp - Crawling

(추가) 사이트별 크롤링 허용 확인각 웹사이트에서 /robots.txt를 입력하면 각 사이트별 허용하는 범위가 나옵니다. (예시: 구글, 네이버 등)Web Crawling vs Web Scraping○ Wep Scraping : 웹 사이트 상에서 원하는 정보를 추출하는 방법○ Wep Crawling : 웹 크롤러가 정해진 규칙에 따라 복수 개의 웹 페이지를 탐색하는 행위(= 웹 스파이더링)크롤링스크래핑웹에서 페이지 및 링크 다운로드(웹 기반으로 작동)웹을 포함한 다양한 소스에서 데이터 추출(반드시 웹과 관련된 것은 아님)동일 콘텐츠가 여러 페이지에 업로드 된 것을 인식 못하므로중복 제거는 필수적특정 데이터를 추출하는 것이므로중복 제거가 반드시 필요하지는 않음웹 크롤링 주요 용도○ 현재 다양한 분야에서 활..

SK networks AI Camp - Web_streamlit(2)

이번에는 웹에 DB를 연결하여 보여주는 것을 streamlit을 통해 만들어보고자 합니다.DBever와 VSCode를 사용할 것인데요. 아래의 링크를 참고해주세요.2024.07.18 - [컴퓨터 공학/Networks] - SK networks AI Camp - MySQL & DBeaver설치 SK networks AI Camp - MySQL & DBeaver설치저번에 Docker를 설치했었습니다.그냥 install 하는 방법도 있지만 저희는 Docker을 통해 MySQL을 설치하겠습니다.  [Installer로 설치하는 방법]https://github.com/good593/course_sql/blob/main/MySQL%20Installer.md course_joowon582.tistory.comstre..

SK networks AI Camp - Web_streamlit

이번에는 Streamlit에 관하여 알아보겠습니다.너무 쉽고 간편하고 이게 왜 돼?라는 말이 그냥 나옵니다. Streamlit○ 데이터 사이언티스트, 엔지니어, 분석가들이 Python으로 데이터 앱을 쉽게 만들 수 있도록 돕는   오픈 소스 앱 프레임워크○ 장점    ● 간편성 : 복잡한 프런트엔드 지식 없이 웹 앱 제작 가능    ● 반응형 : 자동으로 업데이트되는 위젯을 제공하여 데이터와 시각화의 상호작용을 쉽게 구현 가능    ● 데이터 통합 : 주요 데이터 분석 및 시각화 라이브러리와의 통합이 용이○ 단점    ● 사용용도에 따라 단순한 웹 APP을 생성하는 경우 합리적이며, 대규모 배포의 경우 다른 프레임 워크가 적합할 수 있음       따라서 용도에 따라 선택하여 활용이 필요Streamlit..

SK networks AI Camp - Crawling_Selenium

저번 시간에는 정적수집에서 사용하는 beautifulsoup에 관하여 알아봤습니다.json 형식을 받아서 저장하기 위하여 beautifulsoup를 사용하였는데요.selenium의 경우 동적 웹페이지에서 사용하기 위하여 사용합니다.이번 포스팅에서는 네이버 자동 로그인과 네이버 페이 목록 출력에 관한 크롤링을 진행할 것입니다.2024.07.22 - [컴퓨터 공학/Networks] - SK networks AI Camp - Crawling SK networks AI Camp - CrawlingWeb Crawling vs Web Scraping○ Wep Scraping : 웹 사이트 상에서 원하는 정보를 추출하는 방법○ Wep Crawling : 웹 크롤러가 정해진 규칙에 따라 복수 개의 웹 페이지를 탐색하는..

SK networks AI Camp - 통신 프로토콜

크롤링을 2일 간 진행하기에 몇몇 파트를 스킵하면서 하였지만시간이 촉박함에도 통신 프로토콜에 관하여 배웠어요.크롤링을 할 때 통신 프로토콜에 관하여 아는 것이 중요한 것이죠. 통신 프로토콜○ 예시    ● HTTP : Hyper Text Transfer Protocol    ● HTTPS : Hyper Text Transfer Protocol Secure    ● FTP : File Transfer Protocol    ● SMTP : Simple Mail Transfer Protocol    ● SSH : Secure Shell ○ HTTP Protocol    ● 작동 방식        - HTTP는 서버/클라이언트 모델을 따름        - 클라이언트(브라우저)에서 요청(Request)을 보내면 ..

SK networks AI Camp - Crawling(2)

시작하기 전에 가상환경 설정(python version : 3.12) 과 jupyter, requests, beautifulsoup, selenium을 설치해줄게요.못 하시겠으면 아래의 글을 참고해주세요.2024.07.08 - [컴퓨터 공학/Networks] - SK networks AI Camp - Python, Git 등 설치 SK networks AI Camp - Python, Git 등 설치SK networks AI Camp 3기가 24.7.8일 자로 오픈 했어요!오늘은 하루 정도 설치만 했답니다.교육을 위해 사용할 여러가지 툴들을 설치합니다!1. Python2. VS Code3. Git4. Docker  딥러닝, 머신러닝을 하기에 적합joowon582.tistory.com하지만 방법을 적어두겠습..