はじめに
コジマです。
この後にやりたいことがあるので、手始めにアヤメのデータを観察することにしました。
やること
scikit-learnでは、いくつかのデータセットが用意されていて、
機械学習の教材になることがしばしば。
誰しもが必ず通る道なんだなろうなと思っています。
- データをロードする
- キー(列名)を見てみる
- DESCR(説明)を見てみる
- 各キーのデータを見てみる
と言う流れでいきたいと思います。
早速コード
こんなコードになりました。
簡単に解説
DESCRにデータセットの説明が書いてあります。
data列に実際のデータの値が書いてあります。
各値にどういう意味があるのか、どういう特徴を表しているかというのがfeature_names列に
書いてあります。
サンプルソースでも表現していますが、1番目のデータについて例を挙げると
sepal width : 3.5
petal length: 1.4
petal width: 0.2
ということを意味しています。単位は(cm)です。
このようなデータを特徴量と言います。
target列には0,1,2という値が格納されていて、
それぞれにどういう意味があるのかというのがtarget_names列に格納されています。
1:versicolor
2:virginica
ということを意味しています。
このようなデータをターゲットといいます。
この後の展望
このデータを教師データとテストデータに分けて学習をさせます。
特徴量を選んで、学習させて、結果(ターゲット)を出します。
がくの長さと幅、花びらの長さと幅がこの長さだから多分setosaだね!
とかやりたいわけです。
それの精度と信頼性を上げたいのです。
さいごに
正直記事にしようか迷ったんですがw
こんなレベルのこと記事にしてるんじゃねえって思った方がいたらごめんなさい。
でもこういう内容が必要になる人もいると思うし
なにより自分がやってきたandやってきている証拠を積み上げていきたいので
私はやっていきます。
githubにも上げておきました。
https://github.com/kojimanotech/myDeriverables/blob/master/observe_iris.ipynb
この記事を面白いまたは役に立ったと思ってくれた方は是非私のTwitter(@kojimanotech)を
フォローしてくれたらうれしいです!
以上、コジマでした。