kaggle - 初挑戦

概要

kaggleに初挑戦しました 現時点まともにsubmission出来ていません

どうしましょう

追記12/9: 原因わかりました。 ファイルの中に1e3と書かれている場所がありました。 Rで普通に出力すると1000は1e3と出力されるんでしょうかね

read_csvで読み取って、data.table型に変換して、write_csvで出力したんですが、オプションのつけ方とかで設定できるのでしょうか。 要検証です。

このことから、以下の内容は基本的に間違えているので、内容としては消し去りたいが、自戒のためにとっておこうと思います。 教訓としては「エラーの内容は読まないといけないぞ」、というのと「データの中身を確認するのは大事だぞ」ですね。

やってみたこと

取り合えずチュートリアルっぽい「Titanic: Machine Learning from Disaster | Kaggle」を実施しようとした。

データ分析の「デ」の字も知らない素人なので、とりあえずコンペに参加して、submissionが出来ればいいかなと考えました。 そのため、分析のやり方は特定の列の値に着目して、その値によって振り分けを行うようにしました。

作成したデータの抜粋は以下

PassengerId,Survived
892,0
893,0
894,0
…

作成したデータは以下

output.csv - Google ドライブ

submitした際に画面に出力されたのは以下

f:id:Amatori:20181209034408p:plain
kaggle投稿時のエラー画面

まずは1行目について CSVファイルなのに型?と思ったが、ヘッダーやダブルクォーテーションの有無などをいじってみた。 とりあえず解消されなかった。

次に2行目について 1e3って何でしょうかね ファイルの中で1000を超えるとかけないのかなと考えたのですが、そうでもなさそうです。

エラーコードでググってみたりしたけど、うまく解決できませんでした。

以下、参考にしたもの

この後しようと思っていること

kaggleのフォーラムに投げるのが一番早いのかもしれないんですが、英語の敷居が高いです。 とりあえず今は眠いので、また今度再挑戦しようと思います。 他のcompetitionだとどうなるのか見てみようかと思います。

WBS作成で使った関数

はじめに

諸事情があって、ExcelWBSを作成した。 その時に使った関数や、Excelの機能を、備忘録程度に残すことにする。 間違ったことも書くかもしれないが、ご了承いただきたい。

全般

全般的に「あるセルが入力されたら表示」みたいな処理をしたかったので、以下のような関数を大量に使った

=IF(IFBLANK(D3),"",ROW-4)

セル番号や、IFの第三引数はバリエーションがいくつかあったが、大体このような書き方をしていた。 最初からやる必要はないのかもしれないが、最初から見た目が綺麗に作れるので、有用だった。

日付関係

大枠を作るにあたって、日付をどう表示するのかを考えた。 基本的には、表示形式をユーザー定義でいじることで対応した。 ちなみに、ユーザー定義で表示をここまでいじれるのを今回初めて知った。

参考にしたサイトはいくつかあったが、URLを忘れてしまった。 大体は、「Excel WBS サンプル」とかでググって出てきたサンプルをもとに、うまくいかない機能を改めてググって調べた。

日付関係で使った関数は以下に整理する。

WEEKDAY

日付情報から曜日に変換する関数。

始めに以下のように関数に引数を与えて、

f:id:Amatori:20181106202300p:plain:w300

以下のように表示形式を「aaa」に変更すると

f:id:Amatori:20181106201956p:plain:w300

曜日が表示できる。 ちなみに「aaaa」のようにすると、「火曜日」のように表示される。

NETWORKDAYS

公式の情報では以下のように説明されている。

開始日から終了日までの期間に含まれる稼動日の日数を返します。 稼働日とは、土曜、日曜、および指定された休日を除く日のことです。 この関数は、特定期間内の稼動日数を基準にして従業員の給与を計算するときに使用します。

support.office.com

この関数は、「開始日と終了日を設定したら、かかった日数の計算」といった形で使った。

以下が画像。

f:id:Amatori:20181106204828p:plain:w300

さらに、第三引数に祝日を指定すると、祝日も飛ばしてくれます。 以下が適当に祝日を指定した場合の画像。

f:id:Amatori:20181106205407p:plain:w300

条件付き書式

書式での指定に依存して、セルの色などの書式を設定する。

いままでの関数とは違い、少し手順があるので、「土、日曜日は列を灰色にする」という条件を作成する手順を追って説明する。

始めに、以下のように、書式を適用する範囲を選択し、新しいルールを選択する。

f:id:Amatori:20181106210451p:plain:w300

次に以下のように設定する。

f:id:Amatori:20181106211142p:plain:w300

以上を適用すると、以下のように土曜日と日曜日が灰色になっている。

f:id:Amatori:20181106211519p:plain:w300

おわりに

とりあえず使った関数や機能はまとめられたのではと思う。 条件付き書式については、落ち着いてやらないとかなり意味の分からない挙動をする。

文章の質として、他の人や未来の自分からするとかなり読みずらそうだが、それは今後の課題とする。

このブログについて

ブログの背景

  • ブログを始めた理由は自分自身のアウトプットのため
  • 日常で「私、日本語下手だなぁ」と実感することが多かったので、思い切って始めてみた
  • 何かしら書く場所があれば、書く力も自然とついてこないかなと思ってる

書いている人について

  • 少なくともこのブログについては、ネットの匿名性を最大限に活かして、リアルと切り離して書いていこうかと
  • 飽きっぽい性格なので、いつまで続くか分からないが、少なくとも1年ぐらいは続けたいなと思ってる
    • 飽きたらすぐにやめそうでこわいなぁ

ブログのスタンス

  • 特定の何かを発信したいという目的は特になく、まぁ書きたいことを書いていこうかと
    • ネット上では「○○について勉強中です!」みたいなブログは続けば長いけど、結構更新が止まっているイメージあるよね1
  • 果たしてこのスタンスで書いていて、日本語がうまくなるのかは謎
    • まぁ書かないよりましだろうぐらいに思ってます
  • 書く内容も特にこだわらず、日常思ったことからネットニュースや読んだ本など雑多に書いていこうと思う
  • あまり1つの記事を書くのに時間は掛けない予定なので、質についてもあまり高くないだろうな

さいごに

  • まとめると「適当な頻度で、適当に思ったことを書いていくブログ」といった感じかな
  • 目的とスタンスが合致していない気がするけど、まぁいいか
  • この素晴らしきインターネットを、このような自己満足の塊みたいなブログで汚してしまうことは誠に心苦しいですが許して

  1. 同じぐらい「○○日記」みたいな特に目的のないブログも更新が止まっている気もするけど…まぁ気にしない方向で

ウェブカメラって画角広くないと思うけど、大事なところは映るのだろうか

性的な映像をばらまくと恐喝し、仮想通貨で金銭を要求する迷惑メールに注意(「IPAの安心相談窓口だより」から)

参考URL:https://www.ipa.go.jp/security/anshin/mgdayori20181010.html

内容

  • アダルトサイトを見ている姿をばらまかれたくなければ、ビットコインで送金しろという迷惑メールが広まっているらしい。
  • 信憑性を持たせるためか、その人がウェブサービスに設定したことがあるパスワードが文面に入っているらしい。
  • 最初に3月に相談が寄せられ、7月と8月合わせて30件、9月で263件と増加しているらしい。
  • パスワード情報のでどころは分かっていないらしい。

思ったこと

  • 現在調査中なのかもしれないが、送られてきたパスワードがなんのサービスに使われていたのかが気になる。
  • その情報開示してくれたらそのサービスのパスワードを変更するのだが。
  • いずれにしても、迷惑メールはいまだに増えているのだなと思う。
  • ガラケーの時には迷惑メールも届いてたが、最近はめっきり来なかったので、もう撲滅されたのかと思っていた。
  • 私用のパスワードだったら構わないが、会社のパスワードとか送られてきたらぞっとするだろうなと思う。
  • セキュリティ対策に終わりはないだろうが、常に気をつけようと思う。