【ゴールデンウィーク営業のお知らせ】 2024年4月27日(土)~2024年5月6日(月)の期間中、GWのため休業とさせていただきます。 ※4月30日(火)、5月1日(水)、2日(木)は通常営業いたします。 ※休業期間中にいただいた審査申請については、結果をお返しするために数営業日いただくことをご了承ください。

ID:70373さん

自己推薦一覧

自己推薦はありません

3年後の目標や野望


機械学習分野で今までにない切り口で価値を出せるようになりたい

知的前進こそ人類の発展の原動力だから

年収評価シート

2022年/1年以内

食品メーカー向け需要予測モデルの構築・運用

# 概要 小売店に食品を納品しているメーカが使用される、日別商品別の納品量を予測するモデルの構築・運用を担当しました。 # 担当内容 - 要件定義 PMと共に、予測対象とする商品、予測対象日数、予測対象粒度などを擦り合わせる - 基礎分析 pandas, seabornを使用し、各種基礎統計量を算出、目的変数の分布や各種変数との相関を分析・可視化 - 分析内容のレポーティング 基礎分析結果をまとめた資料を作成し定例会で結果を報告 - 前処理パイプライン構築 各種マスタデータや外部データの結合や異常値、欠損値を処理するアルゴリズムをpandas、numpyで実装。 同一商品コード、商品名で再販売されるケースがあり、再販された場合は別商品として扱う必要があった為、再販回数のカウントを算出し、結合のキーに含める - 特徴量エンジニアリング 基本となる目的変数や出荷店舗数などのラグ変数、目的変数の移動平均や、ターゲットエンコーディングなど特徴量を約70個作成し選定 - 予測モデル構築・検証 Pycaretを使用して、20種類ほどの機械学習アルゴリズムを検証。精度の良い勾配ブースティング系のモデルと、多層ニューラルネットワークモデルのアンサンブルを行い、ロバストなモデルを実装。 また長期間の将来予測を行うモデルにはアンサンブル手法に加え、予測値を基に、ラグ変数、移動平均を算出する再帰的手法を活用。 - モデル精度のレポーティング マクロ評価と商品の各種カテゴリごとの評価。また商品ごとの予測値と実績値を時系列で可視化 - 予測スクリプトの実装 上記PoCのスクリプトを実運用可能な将来予測スクリプトへ改修 - モデルのモニタリングと不具合の改修対応 精度が維持されているかモニタリングを行い、スクリプトの不具合が発見された場合に原因調査、改修を行う # チーム PM 1名 DS 1名 DE 2名 担当 DS # try & error 生データを観察した結果、商品が同じ商品名で、再販売されるケースが多いことが判明したので、重要度上位の特徴量となる、商品名をキーとしたターゲットエンコーディングを実装。 納品日数別のターゲットエンコーディングを実装し、新規発売商品の販売数の推移を反映を試みる。 長期の将来予測には再帰的手法を活用。 # 結果 MAPE 約8%の精度を達成 # 環境 GCP, Colabratory, Jupyter

2023年/半年以内

鉄道会社向け需要予測モデルの構築(POC)

# 概要 時間帯別の乗客数の予測を行うモデルの構築・検証を行いました。 # 担当内容 - 要件定義 PMと共に、予測対象路線、予測対象日数、予測対象粒度などを擦り合わせる - 基礎分析 pandas, seabornを使用し目的変数の分布や各種変数との相関を分析・可視化 - 機会損失ロジックの検討 満席になった列車のブッキングカーブを可視化する事で、機会損失分を推量するロジックの検討を行い、実装 - 分析内容のレポーティング 分析結果を基に、資料を作成し定例会で結果を報告 - 前処理パイプライン構築 pandasを使用し、目的変数の集計、各種マスタデータや外部データの結合、異常値や欠損値を処理するアルゴリズムの実装 - 特徴量エンジニアリング 基本となるラグ変数、移動平均や、トレンドを反映する変数の作成と選定 - 予測モデル構築・検証 Pycaretを使用して、20種類ほどの機械学習アルゴリズムを検証。 上下線別や、時間帯別モデルを検証。 - モデル精度のレポーティング マクロ評価と、各種時間帯ごと、乗車率ごとの評価。またピーク時間帯の予測値と実績値の可視化 # チーム PM 1名 DS 2名 担当 DS # try & error - ダイヤ改正により時間帯で発着する列車の系統や数が異なるため乗客数のラグ変数を単純にとるだけでなく、乗車率に変換してラグを算出する事で、ダイヤ改正による過度な座席数の変動を軽減するラグ変数を作成 - 時間帯の時間幅を広くして集計を行うことで、同様にダイヤ改正による座席数の変動を吸収 - 上下線別や時間帯別に乗客数の推移の仕方が異なる為、モデルをそれらの粒度で分割し精度の向上を試みる # 結果 MAPE 約20%の精度を達成 # 環境 Colabratory

2022年/1年以内

NLPモデルのブラッシュアップ(文章管理サービスで使用)

# 概要 固有表現抽出モデルの処理速度向上 - ドキュメント管理サービスで、文章内の人名や技術的キーワードを取得するのに使用されている固有表現抽出(NER)モデルのブラッシュアップを行いました。 ## 課題1 精度を維持しつつ処理速度を向上すること ## 取組内容 - transformerベースのモデルの調査 精度を確保するため、transformerベースのモデルを重点的に調査。 BERT関連の論文や技術ブログから、モデルの精度やパラメータ数を調べる。 現行で使用されているBERT base よりパラメータ数が少なく、モデルの精度指標の内、NERにタスクの内容が近しいSQuaDの精度が高いモデルをピックアップ。 - 分析環境での簡易検証 選定したモデル(ALBERT, TinyBERT, DistilBERT)を検証する環境をDockerで構築し、NERの処理速度と精度を簡易検証。また、spaCyの枠組みで各種BERTモデルを使用する方法を調査。 - 教師なし事前学習(Masked Language Model)の実施 少しでも精度が向上するよう、MLMの事前学習を実施。公開されている日本語特許データの取得し学習データとして使用、前処理パイプラインの構築、訓練アルゴリズムの実装、実行。 - モデルのサービスへの組み込み コマンドのオプションで使用モデルが選択できるような形で、Djangoで構築された既存サービスへモデルを組み込みを行う。 予測部分をバッチ処理できるよう改修。 ## 課題2 NERモデルの英語ドキュメントへの対応 ## 担当内容 - transformerベースのモデルの調査 上記と同様、精度を担保するため、transformerベースのモデルを調査。リリーススケジュールの制限があり、HuggingFaceで公開されているモデルの内、追加学習なしで、サービスの要件に適したNERを行えるモデルを選定。 - 分析環境での簡易検証 精度の検証:特に技術的キーワードが抽出できるかを簡易検証。 - モデルのサービスへの組み込み 上記同様、現行のサービスに組み込み、対象ドキュメントが英語かどうかを判定し、使用モデルが自動選択されるようアルゴリズムを改修。 出力される人名とキーワードを紐付ける後処理ロジックを実装。 # 結果 NERの処理時間を4割削減できるモデルをサービスに組み込む。 英語ドキュメントへの対応。 # チーム PM 1名 SE兼PG 4名 DS 1名 担当 DS # 環境 Docker, AWS, Jupyter, Colabratory

2023年/1年以内

小売業向け需要予測モデルの構築(POC)

# 概要 ある地区の小売業の倉庫別、日別の受注金額を予測するモデルの構築に携わりました。 # 担当内容 - 基礎分析 目的変数の分布や各種変数との相関を分析・可視化 - 前処理パイプライン構築 BigQuery上で、データ取得、集計、各種マスタデータの結合や異常値、欠損値を処理し、ラグ変数を作成するクエリの作成 - 特徴量エンジニアリング その他国民の祝日などカレンダー情報の特徴量をpythonライブラリを使用して作成 - 予測モデル構築・検証 Pycaretを使用して、計40種類程の機械学習アルゴリズムと、時系列モデルの精度を比較、検証中。 目的変数の規模に応じてモデルを分離し精度向上を図る。 - モデル精度のレポーティング マクロ評価と各種カテゴリごと、予測対象日ごとの評価。また倉庫別に予測値と実績値の可視化 # チーム PM 1名 DS 2名 担当 DS # try & error 倉庫によって納品金額の分布が非常に異なったため、倉庫別のモデルを試す。 納品金額の大きな倉庫は予測する金額の幅が大きいことから、別倉庫のデータも学習させた方が精度がよくなることが判明し、別地区のデータも学習データに含める事を試す。 Prophetの予測値のトレンド成分を抽出して、実績値との差分を取り、差分を勾配ブースティングモデルで予測させるトレンド残差予測モデルを構築する。 # 結果 MAPE約15%の精度を達成 # 環境 GCP, BigQuery, Colabratory, VertexAI

2022年/3ヶ月以内

交通物分類プロジェクト(POC)

# 概要 音響データから、道路を通行する交通物の分類を機械学習モデルで行えるか、実証実験を行いました。 # 担当内容 - データ収集 道路にビデオカメラを設置し、交通物の動画を収録する - データ前処理 物体追跡アルゴリズム(YOLOv5 Strong Sort)を使用し、収録された動画ファイルから交通物の画像抽出し、画像毎に、動画の音声部分から、対応する音響ファイルを自動切り出しするパイプラインの実装 - アノテーション 抽出された画像の分類をアノテートする。(対応する音響ファイルの分類(軽車両、バイク等)の正解ラベルを作成する為) - 設計・実装 各種ファイルの入出力パイプラインの設計・実装を行う。Dockerを使用し、ローカルにある動画ファイルを自社サーバに送り、物体追跡、音響抽出するパイプラインの環境を構築 - データ拡張と分類モデル実装 TensorFlowを使用し、切り出した音響ファイルを短期フーリエ解析したデータの拡張を行うパイプラインと、交通物の分類(軽車両、バイク等)を行うモデル(CNN)の訓練・予測スクリプトの実装 # チーム PM 1名 DS1名 担当 DS # try & error 音響データの特徴を考慮し、ホワイトノイズや、時間単位でのデータ欠損やシフトなどのデータ拡張を実装し、学習データ量の課題の克服を試みる # 結果 音響ファイルから5つのタイプを、正答率84%で分類できるモデルを作成 # 環境 Nextcloud, ubuntu

2022年/半年以内

音響データ解析アルゴリズムの運用と改善

# 概要 水道管内で録音されたテラバイト規模の音響データの解析アルゴリズムの運用と、軽量化の検証を行いました。 # 担当内容 - 降雨データのスクレイピング BeutifulSoupを使用し、気象庁が公開している降雨量データのスクレイピング - 解析アルゴリズムの実行・仕様書の作成 研究機関が開発した音響解析アルゴリズムの実行と実行手順のドキュメント化 - データのダウンサンプリング・間引きアルゴリズムの設計・実装・検証 データ量縮小の為、mp3ファイルのレートを変換したり、様々なパターンでデータの周波数帯を間引きするパイプラインをpydubを使用し設計・実装。 処理済データでの解析結果と、未処理データでの解析結果の乖離を検証。 - 実験レポートの作成 # チーム PM 1名 DS 1名 担当 DS # try & error 単純なレートの変換では精度が出ず、原因を調査。レートの変換では、配列のshapeが変わってしまうので、開発された線形変換の重みが活かせない事が発覚したので、変換後もshapeを維持できるようパディング処理するパイプラインを実装 # 環境 NextCloud, ubuntu

マネージメント能力

アピール項目


アウトプット

GitHub アカウント
あり
Qiita アカウント
未入力です
Zenn アカウント
未入力です
Speaker Deck アカウント
未入力です
SlideShare アカウント
未入力です
特にアピールしたいアウトプット
あり

今後、身につけなければいけないと思っている技術は何ですか?

未入力です

あなたが一番パフォーマンスを出せるのはどんな環境ですか?

未入力です

キャラクター

直近で一番やりたいこと
技術を極めたい
好きなスタイル
好きな規模
自信を持って人より秀でていると言える点
学習能力 / 分析力
スキルのタイプ
得意なフェーズ
会社を選ぶ一番の基準
一緒に働く人
やりたくない分野
未入力です
その他の特徴
未入力です
その他のやりたいこと・やりたくないこと
未入力です

やりたい事

手を動かして設計してコードを書きたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
価値あるプロダクトを作り成長させたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
学び続けて技術力でプロダクトに貢献したい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
意義があることや社会に貢献できる仕事がしたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
人や計画の調整・マネジメントをしたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
レガシーなシステムの保守・運用・改善をしたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
企画や仕様を考えるところから関わりたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
業務効率を改善して一緒に働く人のためになりたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
全社横断的な共通基盤作りや強化をしたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
組織や文化を作る・成長させる仕事をしたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい

基本プロフィール

年齢
今年で30代後半
好きな Text Editor
visual studio code
希望勤務地
東京都 / 神奈川県 / リモート勤務
集まる必要性がない場合は基本リモートが許可される環境が必要
希望年収
未入力
転職ドラフトに参加して
企業から指名を受け取ろう!
会員登録をして転職ドラフトに参加すると、参加企業から年収付きの指名を受け取ることができるようになります。
会員登録する
ご意見箱

要望、不具合報告、使いづらい点や感想など、お気軽にお寄せください。
いただいたご意見は、今後のサービス向上に活用させていただきます。

なお、このフォームは受付専用のため、返信を行っておりません。
返信を希望する場合はお問い合わせよりご連絡ください。

  • {{error}}
SIGN UPSIGN IN


転職ドラフトを友人や同僚に薦める可能性はどのくらいありますか?