姓*
名*
ユーザー名*
表示名*
メールアドレス*
パスワード*
パスワードを確認*
忘れた
メールアドレスを入力してください。届いたメールのリンクから新しいパスワード作成をご案内します。
実践WEBエンジニア養成講座Q&Aサイトへようこそ! 下のボタンをクリックしてアカウント登録をしてください!
第9章の欠損値を埋めたり天候を数値化をしているのは
csvファイル上では行ってはいないということなのでしょうか?
ご認識の通りです。
あくまで CSVファイルを Python で読み込み、Python上の変数上で操作しています。
ちょっと蛇足になりますが、なぜこうしているかについて説明させてください。
データというのは、本来あった状態で残しておくという思想があります。。 というのも、データが入っていない(欠損)しているという点においても、 それ自身が情報であるためです。
例えばユーザ情報で「年齢」の箇所が欠損していたとして、仮に平均年齢で埋めてしまった場合、 そのユーザが意図して入れていなかったのかもしれないし、 本当に正しい年齢かというのはユーザ自身しかわかりません。
元のデータを書き換えてしまうことで次にこのデータを使おうとした時に、 平均年齢で欠損値埋めをしているということが検知できなく、 誤った分析結果を導いてしまう可能性があります。
そのため、元のデータは書き換えず分析用(つまり今回は Python上)でのみ データを書き換えるということをやっています。
前の質問
次の質問;
回答 ( 1 )
ご認識の通りです。
あくまで CSVファイルを Python で読み込み、Python上の変数上で操作しています。
ちょっと蛇足になりますが、なぜこうしているかについて説明させてください。
データというのは、本来あった状態で残しておくという思想があります。。
というのも、データが入っていない(欠損)しているという点においても、
それ自身が情報であるためです。
例えばユーザ情報で「年齢」の箇所が欠損していたとして、仮に平均年齢で埋めてしまった場合、
そのユーザが意図して入れていなかったのかもしれないし、
本当に正しい年齢かというのはユーザ自身しかわかりません。
元のデータを書き換えてしまうことで次にこのデータを使おうとした時に、
平均年齢で欠損値埋めをしているということが検知できなく、
誤った分析結果を導いてしまう可能性があります。
そのため、元のデータは書き換えず分析用(つまり今回は Python上)でのみ
データを書き換えるということをやっています。