【Python】Google Colaboratoryを使ってみる:ファイルの読み込み
これまでいくつかサッカーの試合を観ながら分析を行ってきましたが、今後はよりスタッツから洞察したりとよりデータに着目していきたいと考えています。そこで今流行りの Pythonをゼロから学んでいき、このブログでアウトプットの場にしていきます。
今回は、まずはその環境づくりとして、Googleが提供するPythonの実行環境である「Google Colaboratory」を使ってみたいと思います。
「Google Colaboratory」とは
簡単に理解している内容を記載すると、「Google Colaboratory」は教育や研究機関へ機械学習の普及を目的としてGoogleが無料で提供しているPythonの実行環境で、クラウド上で動作するのでブラウザ上で簡単に、かつどこでも利用できるのが特徴。使っている人の感想を見てみると、高負荷の処理もローカルPC以上にこなしてくれるとのこと。
クラウド技術もさることながら、それを無料で使用させてくれるGoogleさんに感謝です。
「Google Colaboratory」を使ってみる
では早速「Google Colaboratory」を使って見ましょう。下記のURLにアクセスします。
https://colab.research.google.com/notebooks/welcome.ipynb
「ファイル」から「Python 3 の新しいノートブック」を選択します。
これだけで準備は完了で、あとはPythonのコードを書くだけです。Pythonの知識はほぼありませんが、お決まり「ハローワールド」をプリントして見ました。
作成したファイルを保存する方法は、「ファイル」から「保存」を選ぶことが出来ます。この時のファイルは、Google Drive内「Colab Notebooks」に保存されます。拡張子は「.py」(Pythonの拡張子)ではなくJupyter Notebook用の拡張子「.ipynb」となっています。
ファイル名は、実行画面上部のファイル名を編集することで変更できます。
「Google Colaboratory」でファイルを読み込んでみる
「Google Colaboratory」で気をつけなければいけない点の1つに、通常のPythonとはファイルの読み込み方が異なる点があるそうです。(通常の読み込み方すら知りませんが。。)
今回worldfootball.netからプレミアリーグの選手データ(名前、所属、年齢、身長、ポジション)を集めたので、下記の記事参考にして試しに読み込んでみようと思います。
元データ
▲データをただ眺めていてもなんのこっちゃという感じ。ここからPythonを使って意味を見出したい(願望)
・ローカルファイルを読み込んでみる
アップロード用のダイアログを出してから取り込むそうです。そのままやって見ます。
コードを実行するとダイアログが出現するので、対象のファイルを指定します。この時、タイミングによっては一回で取り込んでくれませんが、何度かトライすると取り込むようになります。
この状態で、pandasと呼ばれるライブラリを使って、取り込んだcsvを読み込みます。
無事読み込むことに成功しました。
・Google Drive上のファイルを読み込んでみる
続いて、Google Drive上に保存したファイルを読み込んでみます。 同様のデータをGoogle Driveにも保存しておきます。この場合、 Google Drive内ディレクトリをマウントし、その後ファイルを読み込んでいく流れになります。
まずはGoogle Drive内ディレクトリをマウント。
コードを実行すると認証用のURLが表示されます。リンク先でDrive File Streemからのアクセス許可を求められるので同意すると、認証用のコードが発行されます。このコードを「Google Colaboratory」で入力すればマウントが完了します。
あとは同じようにファイル名で指定して読み込むだけです。こちらも無事読み込むことに成功しました。
今回は「Google Colaboratory」を軽く使って見ましたが、アクセスしてすぐ使えてすごく便利ですね。次回以降はより実践的なデータ分析を勉強していこうと思います。
戦術や分析に関して、こういう見方もあるよ、こうして見た方がいいよ、などご意見等ありましたら、コメントで教えていただけると幸いです。ぜひよろしくお願いいたします!