# 経験プロジェクト
## はじめに
閲覧いただきありがとうございます。
私は現在データサイエンティストとして仕事をしています
担当してきたプロジェクト数は2025年12月現在で20件あります。
量が多く、全て記載することはできないため、詳細な業務の記載はPLとして仕事を担当したものに絞って記載をしています。
## メール監査AIモデル作成
2024年9月 ~ 2025年12月現在まで、15か月
役割: 作業メンバーまたはプロジェクトリーダー
チーム: 3名
Python: numpy, pandas, matplotlib, seaborn, scipy, scikit-learn, pypff,plotly
ML: SVM、LightGBM、ロジスティック回帰、IsolationForest、文章ベクトル化(SentenceTransformer など)
統計: 検定、分布の可視化、ECDF、相関分析
実装: Python アプリケーション化、手順書・再現環境構築、テストコード作成
### <プロジェクト概要>
監査上の不正メールを検出する AI モデルを新規作成し、顧客のメール審査業務の効率化を実現。
担当初期は PM 配下で解析業務を担当。2025 年 7 月より PL として、
要件定義 → 工数管理 → 前処理/特徴量作成 → モデル作成・チューニング → 評価 → 導入 → テスト/リリース
まで一貫してリード。
#### PLとしての実績
大手証券会社 2件(2案件3モデル)にて 要件定義〜リリースまで全工程を単独でリードし納品
#### 作業メンバーとしての実績
メガバンク2件(8案件14モデル)
大手食品会社1件(2案件3モデル)
メガバンク系列会社6件(8案件8モデル)
計11件(20案件27モデル)
以降の記載はPLで担当した業務に絞って記載
### < 担当工程>:
・プロジェクト管理
・データ準備
・データ前処理
・AIモデル作成
・精度算出
・顧客調整
・解析結果資料作成
・顧客への解析結果報告
・実装手順書作成
・AIモデル実装
以下にこれら工程の詳細な業務を記載
### <担当業務>:
#### ■ プロジェクト管理
**使用技術/スキル:**
・WBS作成
・Backlog / Excel / Planner による進捗管理
・定例会議運営(アジェンダ設計・会議ファシリテーション)
プロジェクト全体スケジュールを策定し、納期に合わせて工程を逆算して工数を割り当て。
リスク要因の事前洗い出しと対策案を WBS に統合し、スケジュール遅延を最小化。
#### ■ データ準備
**使用技術/スキル:**
・pandas(データ整形)
・numpy(高速処理)
・pypff(PSTメール解析)
・OCR(画像メールの文字起こし)
・正規表現(テキストクレンジング)
顧客ごとに異なるデータ形式を共通スキーマへ変換。
巨大 PST から本文・HTML・添付情報を抽出し、解析用に正規化。
#### ■ データ前処理
**使用技術/スキル:**
・pandas / numpy(データ整形)
・BeautifulSoup(HTMLタグ除去)
・正規表現(表記揺れ・改行の統一)
・ストップワード処理・トークナイズ
メール本文で発生しやすい “異常改行”“HTML残り”“Teams の変則メンション” を補正する独自前処理を構築。
解析工数を 20〜30% 削減する自動化パイプラインを作成。
#### ■ AIモデル作成
**使用技術/スキル:**
・scikit-learn(SVM, LightGBM, ロジスティック回帰)
・SentenceTransformer(E5, BGE など)
・Optuna(ハイパーパラメータ調整)
・IsolationForest(異常検知)
・scipy / 統計学(特徴量検定、閾値決定)
会社標準モデルに加え、比較検証として SVM / LightGBM / SentenceTransformer など複数手法を実施。
精度・可読性・業務適合性の観点から最適モデルを選定し、顧客へ根拠を提示した。
#### ■ 精度算出
**使用技術/スキル:**
・Precision、Recall、ROC
・scikit-learn(評価指標算出)
・ECDF(累積分布による閾値最適化)
・しきい値ロジック(閾値調整・業務要件に合わせた最適化)
黒データの総量が不明な場合、顧客と合意した精度指標を設計。
テストデータが不足する案件では、顧客と共同でテストデータ作成フローを構築。
#### ■ 顧客調整
**使用技術/スキル:**
・コミュニケーションスキル(論理的説明、メール文作成、根拠提示)
・Excel / PowerPoint を用いた説明資料作成
・精度指標(Precision, Recall等)の業務適用説明
#### ■ 解析結果資料作成
**使用技術/スキル:**
・Python:matplotlib / seaborn(可視化)
・pandas(集計・統計量算出)
・PowerPoint(成果物作成)
・統計学(分布、相関、仮説検定)
数値だけでなく、ヒストグラム・棒グラフ・散布図などを活用し、業務者が理解しやすい形で分析結果を整理。
危険度の高いパターンや特徴を抽出・可視化し、モデル改善案まで含めて資料化。
#### ■ 顧客への解析結果報告
**使用技術/スキル:**
・プレゼンテーションスキル
・ストーリーテリング(課題→分析→改善案)
・説明可能なAI(根拠となる特徴量説明)
モデルがなぜその判定を下したかを “業務に合った言葉” で説明し、顧客理解を促進。
報告会ではデータ根拠に基づく意思決定を支援。
#### ■ 実装手順書作成
**使用技術/スキル:**
・モデル実装〜出力形式までのフローチャート
・タイムスケジュール作成
・エラーケース一覧(文字コード・巨大データ・Null 対応など)
顧客側でも再現可能な形で手順書を作成し、モデルの導入障壁を下げた。
実装工程で想定されるトラブルを事前にまとめてリスク低減。
#### ■ AIモデル実装
**使用技術/スキル:**
・Python(pickle 化、実行スクリプト作成)
・pandas(運用時の入力データ受け渡し基盤)
・Linuxコマンド
### <工夫したこと>
#### ■ コミュニケーション
・顧客との密な連携により、精度指標の合意形成
→モデルの “わかりやすい説明” を実現
・報告会の先回り進行
#### ■ プロジェクト管理
・WBS 作成、リスク洗い出し、遅延時の事前説明
・モデル実装〜検証工程までの所要時間を標準化し、工数のブレを削減
#### ■ データ分析
業務理解に基づく特徴量設計
数値重視ではなく「業務で本当に検出すべきデータ」を優先し、説明可能性を高めた
#### ■ 精度算出
データの制約(黒データ数不明など)に合わせて指標選定
運用可能な精度算出方法を顧客と共に構築