nashidos’s diary

アルゴリズムとか機械学習とか色々

Kaggleの使い方を初心者向けに丁寧に説明してみる


Kaggleに登録したものの使い方がわからず困っている人もいるのではないでしょうか。

私自身、Kaggle入門者向けの記事を読んでタイタニックの提出はしてみたものの、いざ自分でコンペに参加しようと思うとわからないことが多すぎて放置していました。

なので、本記事ではKaggleの使い方について丁寧に詳しく述べていきたいと思います。

なお、Kaggleのアカウント登録の方法などはこの記事では紹介しませんのでご注意ください。

Kaggleの基本的な使い方

ここでは以下の画像で囲まれているところの使い方について説明します。
Kaggle

Overview

ここはその名の通り、コンペの概要について述べられている部分です。

Description

どのようなコンペなのか、なぜコンペを開催したのかなどの情報が記載されています。

コンペの内容を理解するためにまず読むべき部分です。

Evaluation

どのような評価指標で評価をするのかが記載されています。タイタニックではAccuracyが評価指標になっています。

コンペによっては独特な評価指標を使った評価することもあるのでEvaluationも確認必須です。

Timeline

コンペの期限が記載されています。タイタニックの場合は常に開催しているのでTimelineはありません。

提出期限だけではなく、登録期限やチームを作る期限などさまざまな期限が記載されています。

Prizes

優秀な成績を残した場合に貰える賞金について記載されています。タイタニックのコンペには賞金はないので記載されていません。

賞金がモチベーションになる方は見てもいいかもしれませんが、賞金に興味がない人は気にする必要もないかと思います。

Data

分析に使うデータとそのデータについての詳細が記載されています。

当たり前ですが、分析をする上でかかせないのでしっかり確認しておきましょう。

Notebooks

色々な人のコード(カーネル)が見れるところです。自分のコードも公開することができます。

Notebooksはコンペで少しでもいい成績を残したいなら絶対見るべきです。

色々な人の様々な知見が得られるので、データ分析や機械学習について学びたい方はNotebooksを見るとかなり勉強になると思います。

初心者向けのカーネルも多く存在するので安心してください。

Discussion

さまざまな議論をする場です。

データの不備についての議論や、わからないことがあるから助けてほしいなど様々な議論がされています。

わからないことがあれば実際に質問してみるのも良いと思います。

Leaderboard

順位表です。Team Name,Team Members,Score,Entries,Lastも見ることができます。

自分がどのくらいの位置にいてトップの人はどれくらいのスコアを出しているのかなどを知ることができます。

Rules

コンペのルールについて記載されている場所です。

一日の提出制限やチームの人数制限等についても記載されています。

一日の提出制限まで達すると提出できなくなるので、うっかり制限を超えて提出してルール違反みたいなことは起きません。

Team

チームを作ることができます。

ソロで参加する場合は気にしなくても大丈夫です。




その他の使い方・注意点

Kaggleではファイルを提出するだけのコンペとカーネル(コード)ごと提出するコンペがあります。

個人的には最初はファイルのみを提出するコンペの方が簡単で良いかと思います。

しかし、Kaggleに用意されているカーネルを利用することによって自分で環境構築をする手間が省けるというメリットはあります。
環境構築がめんどくさい人は最初から使ってみてもいいかもしれません。

カーネルで使用できる言語はPython3かRです。

さいごに

Kaggleの使い方について説明してきましたがわからないこと等ありましたらぜひコメントしてください。

これからKaggleを始める人にとって少しでも助けになったら幸いです。

おわり。