seleniumを使ってpythonでWEBを操作する方法

seleniumを使ってpythonでwebを操作する方法

seleniumとは

seleniumとはWEBを操作するオートメーションツールでWEBのUIテストを行うために使用されるツールです。

元々はWEBにJavaScriptのコードを流しWEBを操作する仕組みでしたが、セキュリティの制限に引っかかる事が多かったため、現在はWebDriverを操作してブラウザを操作するプログラムになっています。

今回はwindows環境でChromeを操作する方法を解説します。

Mac等とはディレクトリの指定方法が異なるだけですので、同じコードで問題なくseleniumが扱えます。

seleniumの環境設定

まずはseleniumを扱う環境の構築が必要です。

恐らく初学者が初めてseleniumを扱うと様々なエラーが発生するかと思われますが、なるべく発生しやすいエラーを解決する方法も記述していきたいと思います。

seleniumをインストールしよう

まずはpipを使用してseleniumをインストールさせます。

ChromeDriverをダウンロードしよう

公式サイトよりChromeDriverをダウンロードしましょう。

様々なバージョンのChromeDriverがありますけど、基本的には最新版のChromeDriverをダウンロードしておけば問題ないです。

Mac用やwindows版等がありますが、お使いのOSのドライバーをダウンロードしてください。

ChromeDriverを収納するファイルを作成しよう

ダウンロードしたファイルの中にChromeDriver(.exe)がありますがこれを保存するファイルを作成します。

基本的にどこに作成しても問題ありませんが、ディレクトリの指定を行わなければなりません。

今回はデスクトップにファイルを作成しましょう。

名前は何でもいいですが今回はseleniumという名前のファイルにChromeDriver(.exe)を収納しておきます。

クロームをseleniumで開いてみよう

それではseleniumを使ってブラウザを開いてみます。

ここまででうまくいくとクロームが起動するはずです。

エラーが発生する原因と解決方法

発生する主なエラーと解決方法はコチラです

SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated \UXXXXXXXX escape

このようなエラーが発生した場合はディレクトリの指定方法がうまくできていません。

シンタックスエラーとは構文エラーの事です。

特にWindowsでディレクトリを指定する際は「\」を使いますが、バックスラッシュはpythonの構文ではバックスラッシュはエスケープシーケンスとして扱われるので、ディレクトリを指定する場合はrow stringを使用しなければなりません。

文字リテラルの前にrかRを付けるとバックスラッシュが全て文字列に入ります。

例えば、このようにディレクトリを指定してあげます。

これでシンタックスエラーは回避できたかと思われます。

次に多いエラーとしてはクロームのバージョンとChromeDriverのバージョンが異なる場合です。

この場合まずはクロームのバージョンを調べてあげましょう。

メニュー>ヘルプ>Chromeについてより、クロームの更新及び、現在のバージョンが確認できます。ChromeDriverとバージョンが一致していないとエラーが発生しますので合わせるようにしましょう。

AttributeErrorが発生した場合は別記事で解説していますのでそちらを参考にしてください。

関連記事

AttributeErrorとは AttributeErrorとは属性が間違っている事を知らせてくれているエラーです。 Attribute=属性という意味です。 pythonでselenium等を使用していると、 AttributeEr[…]

AttributeError: 'list' object has no attribute 'text'

seleniumで要素を指定する方法

実際にseleniumでWEBを動かすためには要素を指定しないといけません

例えば「はい」「いいえ」の2択があったとして「はい」を選択するにはどのように指定できるのでしょうか。

答えはIDやクラス名で指定してあげるのです。

それでは指定方法を見てみましょう。

オブジェクト.find_element_by_属性

メソッドの書き方はこの通りです。実際のコードはこのようになります。

変数名はdとしています。

指定の書き方は上記の通りです。この中でもIDで指定できるのもはなるべくIDで指定しましょう。IDはHTML内で重複できないので余計なものまで指定する事がないです。

2ページや3ページ等複数のページ数がある記事の場合、リンクテキストで指定する事もできます。

上のコードはリンクテキストが完全に一致している場合指定する事ができるコードです。
対して下のコードはリンクテキストが一部分一致していると指定する事ができるコードです。

要素の指定方法は以上です。次は要素を指定して実際にブラウザを操作してみましょう。

seleniumで要素を操作しよう

seleniumで要素を操作する方法は大きく分けて二つあります。

一つは要素を指定してメソッドで操作する。
もう一つはJavaScriptで動かくの2パターンです。

今回はメソッドで操作する方法を解説していきます。

今回はyahooのページを実際に操作するコードを用いて解説します。

※ID名等は変更される場合がありますので、このコードで確実に実行される保証はありません。

クリックする

要素の指定.click()

yahooのTOPページの左上にあるトラベルをクリックしてyahooトラベルへ遷移してみよう。

※サーバーに負荷をかけないようにTimeモジュールを使用して、5秒スリープするコードも記述しています。

このコードを実行すると、yahooのTOPページからyahooトラベルに遷移できます。

d.find_element_by_css_selector(‘#mhi1st > a:nth-child(1)’).click()

この行のコードでfindメソッドでCSSセレクターを指定して、clickメソッドで要素をクリックしています。

テキストの入力とクリア方法

テキストの入力
要素の指定.send_keys()
テキストのクリア
要素の指定.clear()

検索窓からテキストを入力して検索する方法や再度検索を行う時の為にテキストをクリアする方法を解説します。

ではまたまた、yahooを使って解説します。

検索窓にyahooと入力して、クリアして、googleと入力してクリックする一連の動作のコードを書いてみます。

sendメソッドでyahooが入力されてclearメソッドでクリアした後にsendメソッドでgoogleと入力された後clickメソッドでgoogleに遷移できます。

select要素の操作

select要素を操作するにはselectモジュールが必要です。

selectタグを操作する方法は3パターンあります。

Select(要素の指定).select_by_value(‘value’)
Select(要素の指定).select_by_index(‘index番号’)
Select(要素の指定).select_by_visible_text(‘テキスト’)
それに対して、deselectメソッドを使用すると選択の解除が行えます。
Select(要素の指定).deselect_by_value(‘value’)
Select(要素の指定).deselect_by_index(‘index番号’)
Select(要素の指定).deselect_by_visible_text(‘テキスト’)
Select(要素の指定).deselect_all()

選択の解除は選択の解除が行える要素のみに操作が行えます。

例えば、予めvalueがセットされているselectタブ等は解除が行えません。

それでは今回はウラコレいう占いサイトで生年月日を自動的に入力してみるコードを見てみましょう。上から順にvalue指定、インデックス指定、テキスト指定を行っています。

これでselectを操作して生年月日が入力できます。

ページの操作

要素を指定せずにページ全体を操作する方法を解説します。

当サイトではdriverを収納している変数は「r」となっていますので、ご注意ください。

画面を最大化する

ページを戻る

ページを進める

ページを更新する

ページを閉じる

全てのページを閉じる

アラートを操作したい時

pythonでseleniumを操作するまとめ

以上が基本的なpythonでのselenium操作方法です。

上記の項目を組み合わせるだけで、WEBの動作は一通り行えるかと思われます。

後はcsvやexcelから情報を取ってきてブログを自動で投稿したり、SEO調査の一環として、特定のキーワードのTOP10のサイトのタイトルやh1タグを毎日自動的に取得したりと様々な動作をseleniumで行えるようになります。

次回はseleniumを使用して、スクレイピングを行う方法を解説します。

>プログラミング情報サイト「In-Output」

プログラミング情報サイト「In-Output」

当サイトではプログラミング言語の情報を発信しています。
HTMLやCSSのマークアップ言語の学習方法や解説、WordPressでのサイト開設方法、python等のプログラミング言語を使用して日頃の作業の効率化等、皆様のお役に立てるサイトを目指しています。

CTR IMG