悩んでいるのか、ただ時間を無駄にしているだけなのでは
今、取り組んでいるタスクにおいて、良い解決策が分からなくなってきました
データサイエンス周りではよくある?課題であるかもしれませんが、予測精度が良くなると思って特徴量を追加したのにそこほど精度が変わらない
この問題の解決策を探る旅に出ています
今回の取り組みは特徴量エンジニアリングと言われるような部分で、そこで迷路にハマった形です
すぐに思いつく方法は試した上で、次の打ち手が分からなくなりました
直感としては、Aという特徴量を追加したら精度が向上しそうなにしない
何が原因だったのか、どうしたら良いのか、と悩んでいます
今回の問題の肝は、データ数にあります
膨大なデータを扱っているため、使い方を間違えるとメモリを圧迫してエラーになります
しかし、データを絞り込むと今度はサンプルサイズが足らなくなって良い精度が出ません
直感的には上手くいきそうなの上手く行かない
今回はそんな沼に嵌った今思ったことをまとめていきます
馬鹿の考え休むに似たり
ある意味、このような場面に遭遇した際にこそDSの出番といえます
極端な話、分析用のSQLもAIに書かせて、このようなデータをどう解釈するか、データからどう価値を出すかが仕事です
そう考えるとようやく仕事が始まったとも言えます
加えて今の仕事内容は大学院の時と異なります
そのため新しく論文を読み込んでいく必要があります
まだ問題とそれに紐づく手法や論文誌がありません
問題に突き当たる前にこの貯金をしていく必要があると痛感した1日でした
悩むのは自由だが、結果に繋がるように悩まねければならない
それを痛感した1日でした
最後に
詰まった時に立ち返ることが出来る根本を作る!
その重要性を痛感しました
コメント