はじめに
コジマです。
今回はPandasを使用して
- CSVの読み込み
- 基本統計量の表示
をしていこうと思います。
その後に、基本統計量の読み方のお話をしていこうと思います。
この記事では
- Pythonで基本統計量を見る方法を知る
- 基本統計量がなんたるかを知る
- 基本統計量の内容を知る
を目標にします。後々専門っぽい用語が出てくることになるのですが、
そういったものの詳細な解説は別途記事を書きたいと思います。
ソースを表示
gistにサンプルを公開しておきました。
基本統計量を表示するためには、Pandasライブラリのdescribe()関数を使用します。
機械学習やデータ分析を行う際にデータ観察は必須なので、
describe()を実行した時に表示される内容がわかるようにならなければいけません。
データは私がつけている体重の記録です(デブです…)
データカラムの説明
一応、CSVを読むために必要なので説明しておきます。
あすけんというアプリを使って体調管理しています。(オススメのアプリです)
カラム名 | 説明 | 備考 |
date | 日付 | yyyy/mm/dd |
weight | 体重 | |
fat | 体脂肪率 | |
health_point | 健康度 | あすけん独自の指標 |
calorie_intake | 摂取カロリー | |
calorie_burned | 消費カロリー | iPhoneの万歩計連動のみ |
基本統計量とは
データの特徴を表す代表的な値を言います。
「基本統計量調べといて」と言われたら「データ分析でよく使う情報が集めとこう」と思っていれば問題ないと思います。
その「データ分析でよく使う情報」がdescrbe()を実行することで取得できます。
各行の説明
名称 | 意味 | 説明 | 備考 |
count | 件数 | その名の通りいくつあるかを表す。 | 今回の場合は消費カロリーが73件、その他は78件ある。
万歩計との連携がうまくいかなかった日は空になってます。こういう空の値を「欠損値」といいます。ついでに覚えましょう。 |
mean | 平均 | データのばらつきを平らに均した数。データを全部足してから件数で割って求める。 | 今回の場合は平均の体重が大体82.5kgということになります。 |
std | 標準偏差 | 平均値からどのくらいデータにばらつきがあるのかを見ることができます。 分散の平方根を取ることで求まります。体脂肪率にあまり変化がなく、摂取カロリーにムラがあることが分かります。 |
– |
mix | 最小値 | 一番小さな値。一番痩せてたとき80.4kgだということがわかる。 | – |
25% | 第一四分位数 | 前半データの真ん中の数値。 | – |
50% | 第二四分位数(中央値) | 真ん中の値。データを小さい順に並び替えた時に真ん中にある数値。 | – |
75% | 第三四分位数 | 後半データの真ん中の数値。 | – |
max | 最大値 | 一番大きな値。一番太っていたとき86.6kgだったことがわかる。 | – |
第一〜第三四分位数を合わせて四分位数といいます。
箱ひげ図に使用されるデータで、複数データのばらつきを調べることができます。
今回はばらつきを比較するものがないですが、例えば曜日ごとの弁当の売り上げや、野球チームの勝率なんかを箱ひげ図で見る時なんかに便利です。
標準偏差、四分位数については別途記事にする予定です。
(2019/1/26 追記)
四分位数について記事を書きました。
【数学】四分位数、中央値を理解する
さいごに
本当は標準偏差と四分位数の説明をしたかったけど、量が膨らみすぎてしまうので
この記事内では「こんなものがあるんだな」と思っていただければ幸いです。
この記事を面白いまたは役に立ったと思ってくれた方は是非私のTwitter(@kojimanotech)を
フォローしてくれたらうれしいです!
もっと学びたい人はこちら
Python、機械学習をもっと学びたいという人のためにおすすめのUdemy講座を紹介いたします!
Pythonの基本文法を押さえたい方はこちらの動画がおすすめです。
エンジニアになりたいと思って駆け出した方がPythonを選んだときはこの講座から始めるとよいと思います。
Python 3 エンジニア認定基礎試験の対策にもなります。
はじめてのPython 少しずつ丁寧に学ぶプログラミング言語Python3のエッセンス
プログラムの基礎が分かる方で機械学習に興味がある方はこちらがおすすめです。
SIGNATEという日本版Kaggleのサービスを実際に使用してハンズオン形式でデータ分析・機械学習を学ぶことができます。
もちろんこの動画だけで特級のデータサイエンティストになれるわけではないですが、機械学習の門を叩くにはとても良い講座だと思います。
【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門
Pythonのライブラリで必ず押さえておきたいのがNumpy, Pandas, Matplotlibの3つ。
この3つを網羅的に学ぶことができる講座です。
英語の講座ですが、わかりやすい英語ですし、ソースコードメインで解説しているので
ソースコードを一緒に手を動かしながら学べば十分理解することができます。
機械学習を使わない人にもおすすめの講座です。
2021 NumPy, Pandas and Matplotlib A-Z™: for Machine Learning
気になった人はぜひ見てみてくださいね!
以上、コジマでした。