サッカーを通じて観戦力と分析力を上げていくブログ

基本的にはサッカー×データに関して試してみたことをまとめています。最近はもっぱらPythonを使った可視化中心。時々自分の好きなガジェットも。

【Python】Google Colaboratoryを使ってみる:ファイルの読み込み

これまでいくつかサッカーの試合を観ながら分析を行ってきましたが、今後はよりスタッツから洞察したりとよりデータに着目していきたいと考えています。そこで今流行りの Pythonをゼロから学んでいき、このブログでアウトプットの場にしていきます。

今回は、まずはその環境づくりとして、Googleが提供するPythonの実行環境である「Google Colaboratory」を使ってみたいと思います。

 

 Google Colaboratory」とは

簡単に理解している内容を記載すると、「Google Colaboratory」は教育や研究機関へ機械学習の普及を目的としてGoogleが無料で提供しているPythonの実行環境で、クラウド上で動作するのでブラウザ上で簡単に、かつどこでも利用できるのが特徴。使っている人の感想を見てみると、高負荷の処理もローカルPC以上にこなしてくれるとのこと。

クラウド技術もさることながら、それを無料で使用させてくれるGoogleさんに感謝です。

 

Google Colaboratory」を使ってみる

 では早速「Google Colaboratory」を使って見ましょう。下記のURLにアクセスします。

https://colab.research.google.com/notebooks/welcome.ipynb

「ファイル」から「Python 3 の新しいノートブック」を選択します。

f:id:virgilvd:20181031235715p:plain

これだけで準備は完了で、あとはPythonのコードを書くだけです。Pythonの知識はほぼありませんが、お決まり「ハローワールド」をプリントして見ました。

f:id:virgilvd:20181031235737p:plain

作成したファイルを保存する方法は、「ファイル」から「保存」を選ぶことが出来ます。この時のファイルは、Google Drive内「Colab Notebooks」に保存されます。拡張子は「.py」(Pythonの拡張子)ではなくJupyter Notebook用の拡張子「.ipynb」となっています。

ファイル名は、実行画面上部のファイル名を編集することで変更できます。

f:id:virgilvd:20181101000633p:plain

 

Google Colaboratory」でファイルを読み込んでみる

Google Colaboratory」で気をつけなければいけない点の1つに、通常のPythonとはファイルの読み込み方が異なる点があるそうです。(通常の読み込み方すら知りませんが。。)

今回worldfootball.netからプレミアリーグの選手データ(名前、所属、年齢、身長、ポジション)を集めたので、下記の記事参考にして試しに読み込んでみようと思います。

qiita.com

元データ

f:id:virgilvd:20181101001636p:plain

▲データをただ眺めていてもなんのこっちゃという感じ。ここからPythonを使って意味を見出したい(願望)

 ・ローカルファイルを読み込んでみる

アップロード用のダイアログを出してから取り込むそうです。そのままやって見ます。

from google.colab import files
uploaded = files.upload() 

コードを実行するとダイアログが出現するので、対象のファイルを指定します。この時、タイミングによっては一回で取り込んでくれませんが、何度かトライすると取り込むようになります。

f:id:virgilvd:20181101004215p:plain

f:id:virgilvd:20181101004225p:plain

この状態で、pandasと呼ばれるライブラリを使って、取り込んだcsvを読み込みます。

import pandas as pd
data = pd.read_csv('sample.csv', encoding='utf-8')
data.head()

f:id:virgilvd:20181101004611p:plain

無事読み込むことに成功しました。

Google Drive上のファイルを読み込んでみる

続いて、Google Drive上に保存したファイルを読み込んでみます。 同様のデータをGoogle Driveにも保存しておきます。この場合、 Google Driveディレクトリをマウントし、その後ファイルを読み込んでいく流れになります。

まずはGoogle Driveディレクトリをマウント。

from google.colab import drive
drive.mount('/content/gdrive')

 コードを実行すると認証用のURLが表示されます。リンク先でDrive File Streemからのアクセス許可を求められるので同意すると、認証用のコードが発行されます。このコードを「Google Colaboratory」で入力すればマウントが完了します。

f:id:virgilvd:20181101005622p:plain

あとは同じようにファイル名で指定して読み込むだけです。こちらも無事読み込むことに成功しました。

f:id:virgilvd:20181103161613p:plain

今回は「Google Colaboratory」を軽く使って見ましたが、アクセスしてすぐ使えてすごく便利ですね。次回以降はより実践的なデータ分析を勉強していこうと思います。

戦術や分析に関して、こういう見方もあるよ、こうして見た方がいいよ、などご意見等ありましたら、コメントで教えていただけると幸いです。ぜひよろしくお願いいたします!