はじめに
コジマです。
この後にやりたいことがあるので、手始めにアヤメのデータを観察することにしました。
やること
scikit-learnでは、いくつかのデータセットが用意されていて、
機械学習の教材になることがしばしば。
誰しもが必ず通る道なんだなろうなと思っています。
- データをロードする
- キー(列名)を見てみる
- DESCR(説明)を見てみる
- 各キーのデータを見てみる
と言う流れでいきたいと思います。
早速コード
こんなコードになりました。
簡単に解説
DESCRにデータセットの説明が書いてあります。
data列に実際のデータの値が書いてあります。
各値にどういう意味があるのか、どういう特徴を表しているかというのがfeature_names列に
書いてあります。
サンプルソースでも表現していますが、1番目のデータについて例を挙げると
sepal width : 3.5
petal length: 1.4
petal width: 0.2
ということを意味しています。単位は(cm)です。
このようなデータを特徴量と言います。
target列には0,1,2という値が格納されていて、
それぞれにどういう意味があるのかというのがtarget_names列に格納されています。
1:versicolor
2:virginica
ということを意味しています。
このようなデータをターゲットといいます。
この後の展望
このデータを教師データとテストデータに分けて学習をさせます。
特徴量を選んで、学習させて、結果(ターゲット)を出します。
がくの長さと幅、花びらの長さと幅がこの長さだから多分setosaだね!
とかやりたいわけです。
それの精度と信頼性を上げたいのです。
さいごに
正直記事にしようか迷ったんですがw
こんなレベルのこと記事にしてるんじゃねえって思った方がいたらごめんなさい。
でもこういう内容が必要になる人もいると思うし
なにより自分がやってきたandやってきている証拠を積み上げていきたいので
私はやっていきます。
githubにも上げておきました。
https://github.com/kojimanotech/myDeriverables/blob/master/observe_iris.ipynb
この記事を面白いまたは役に立ったと思ってくれた方は是非私のTwitter(@kojimanotech)を
フォローしてくれたらうれしいです!
もっと学びたい人はこちら
Python、機械学習をもっと学びたいという人のためにおすすめのUdemy講座を紹介いたします!
Pythonの基本文法を押さえたい方はこちらの動画がおすすめです。
エンジニアになりたいと思って駆け出した方がPythonを選んだときはこの講座から始めるとよいと思います。
Python 3 エンジニア認定基礎試験の対策にもなります。
はじめてのPython 少しずつ丁寧に学ぶプログラミング言語Python3のエッセンス
プログラムの基礎が分かる方で機械学習に興味がある方はこちらがおすすめです。
SIGNATEという日本版Kaggleのサービスを実際に使用してハンズオン形式でデータ分析・機械学習を学ぶことができます。
もちろんこの動画だけで特級のデータサイエンティストになれるわけではないですが、機械学習の門を叩くにはとても良い講座だと思います。
【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門
Pythonのライブラリで必ず押さえておきたいのがNumpy, Pandas, Matplotlibの3つ。
この3つを網羅的に学ぶことができる講座です。
英語の講座ですが、わかりやすい英語ですし、ソースコードメインで解説しているので
ソースコードを一緒に手を動かしながら学べば十分理解することができます。
機械学習を使わない人にもおすすめの講座です。
2021 NumPy, Pandas and Matplotlib A-Z™: for Machine Learning
気になった人はぜひ見てみてくださいね!
以上、コジマでした。