Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Udemy

Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup・Selenium・Requests)

via Udemy

Overview

Python3のスクレイピング用ライブラリ BeautifulSoup・Selenium を用いて、世界中のWebサイトからデータを取得します。効率的にデータを収集・活用することで、業務効率化・自動化に貢献するスキルを身に付けましょう!

What you'll learn:
  • Python3のスクレイピング用ライブラリBeautifulSoup、Selenium、Requests、Newspaper3k、Pandas(read_html)が扱えるようになります。
  • Beautiful Soupを用いて、複数のWebページを巡回し、目的の情報を取得する方法を理解することができます。
  • Seleniumを利用した、ログイン画面への対処、JavaScriptを用いた動的なサイトへの対処、画像を取得・ダウンロードする方法を理解することができます。
  • newspaper3kを用いて、ニュースサイトやブログのトップページに表示されている複数の記事を順に巡回し、記事や要約、キーワードをダウンロード・保存する方法を理解することができます。
  • Pandasのread_htmlを用いて、Webサイト上のテーブルに格納されているデータを取得する方法を理解することができます。
  • スクレイピングにおけるXPath、CSSセレクタ、正規表現の利用方法を学ぶことができます。
  • スクレイピングでデータを取得・抽出し、取得したデータを整形・グラフ化、保存する一連の流れを習得することができます。
  • 実践的な演習問題を通じてスクレイピングの理解を深めることができます。

現役のデータサイエンティストが提供するWebスクレイピングに関する講座で、データサイエンスの実務における経験を基に、デザインされた講座になります。


近年、ビジネスでのデータ活用においては、世界中のWebサイトから様々なデータを取得することが求められています。 また変化も激しい環境において、それぞれのWebサイトの構造や内容も頻繁に更新され、日々変わっていきます。


スクレイピングが難しい理由として、次のようなポイントが挙げられます。

  1. Webサイトにより構造が異なる

  2. Webサイトの構造が複雑・頻繁に変わる

  3. JavaScriptでユーザーの操作によって新たなページが読み込まれるなど、特殊な技術が使われている

しかし、ビジネスでスクレイピングを用いるには、これらのポイントに適切に対処していくことが求められます。



【このコースで扱うトピック】

これら難しいポイントに適切に対処し、ビジネスでスクレイピングを活用できるよう、このコースはデザインされています。


このコースで扱うトピックは、これらのものになります。


  1. 様々なニーズや場面に応じて使い分けできるよう、Pythonのスクレイピングライブラリの中でも幅広いライブラリをカバーします。

    • Beautiful Soup、Selenium、Requests、newspaper3k、Pandasのread_html


  2. ビジネスで活用するにおいて必要となる、スクレイピングにおける一連のプロセスをカバーします。

    • データ取得・抽出から、整形、グラフ化、保存まで


  3. 特殊な技術が使われているWebサイトも考慮し、幅広いスキルを身につけれるよう、レクチャーを提供します。

    • JavaScriptを用いた動的なサイトへの対処方法

    • ログイン画面への対処方法

    • リンクをたどり、複数のWebページを巡回する方法

    • テキスト情報・画像ファイルの取得方法

      など多数

これらを通じてこのコースの受講後は、世界中のWebサイトから効率的に情報を取得することができるようになります。

またレクチャーで学んだ知識が定着するよう、豊富で実践的な演習を用意しております。


なお、Classなどオブジェクト指向の記述は、初心者向きでは無いので本コースの対象外としております。本コースでは、これらの記述を使わずに解説しておりますので、ご注意ください。


Syllabus

  • はじめに
  • Jupyter Notebookのインストールと使い方
  • 【補講:初心者向け】HTMLの基本、Pythonの基礎(外部リンク)
  • newspaper3kによるニュース記事の取得(ブルームバーグ)
  • 【演習】newspaper3kによる各種業界メディアからの記事の取得
  • Pandasでスクレイピング(Yahoo Financeから株価の取得)
  • Requestsの基本的な使い方
  • 【補講:初心者向け】Beautiful Soupの基本
  • BeautifulSoupで価格.comからランキングデータの取得
  • 【演習】BeautifulSoupでYahooニュースから主要ニュースの記事を取得
  • 後半のセクションの進め方
  • XPathの基本
  • Seleniumの基本的な使い方(Bridgeでの検索結果の取得)
  • Seleniumでログインする方法(インスタグラムへのログイン)
  • Seleniumで画面スクロールする方法(インスタグラムで全ての画像を表示)
  • Selenium・BeautifulSoup・Requestsで画像をダウンロードする方法(インスタグラムからの画像の取得)
  • CSSセレクタの記述方法
  • XPathの応用
  • 正規表現
  • BeautifulSoupでHTMLの階層を移動してタグを指定する方法
  • BeautifulSoupのfind、find_allメソッドの使い方
  • BeautifulSoupのselectメソッドの使い方
  • 【総合演習】Selenium + BeautifulSoup + Requestsを組合せたスクレイピング
  • ボーナスセクション

Taught by

清水 義孝

Reviews

4.2 rating at Udemy based on 1132 ratings

Start your review of Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup・Selenium・Requests)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.