【Python】連続データの重複削除の覚書【Pandas】

【Python】連続データの重複削除の覚書【Pandas】

はじめに

コジマです。

Pandasで重複するデータを削除するときは
drop_duplicatesを使用するのが一般的ですが、それを使用するとすべての重複を削除してしまいます。

ここで話をするのは
1,1,1,2,2,2,3,3,3,2,2,3,1,1
のようなデータを
1,2,3,2,3,1
のように抜き出すためのTipsです。

drop_duplicatesを使用すると
1,2,3
のようになります。

サンプルソース

方針としては
一つ手前の要素と異なる要素を抜き出す。
ということをします。

記述自体はシンプルです。

出力は以下のようになります。

データが変化する地点のデータだけほしいときに使えます。

さいごに

シンプルですが、覚書でした。

ほぼこれなんですけどね。
回答した人頭いいな~って思いました。
https://teratail.com/questions/163839

こういうことができる関数がPandasに用意されていると思って調べていたから
遠回りしてしまいました。そうじゃなかったんですね。

データフレームはリスト内包のようにデータの絞り込みができるので、
こういった書き方に慣れておきたいですね。

こういうときにfor文でぐるぐる回すのはアンチパターンですよ!
Pythonのfor文はめちゃめちゃ遅いから使わずに済むなら使わないようにしましょ!

この記事を面白いまたは役に立ったと思ってくれた方は是非私のTwitter(@kojimanotech)を
フォローしてくれたらうれしいです!

以上、コジマでした。


Pythonカテゴリの最新記事