ID:75443さん

3年後の目標や野望


データサイエンスの力で、社会問題を解決するプロジェクトをリードしたい。

現在の業務ではデータの確認はできますが、その後に、どのようにデータが使用されてどのような効果があったのかということは確認できず、社会貢献の実感が乏しいのが現状です。そのため、プログラミング言語を駆使したデータ解析能力と、医療データの仕様定義能力を活かし、解析の目的やアウトカムを明確にし、適切な統計解析を実施することで質を高めたデータセットを提供することで、エビデンスに基づいた新しい価値を届けたいと考えています。

年収評価シート

2022年/2年以上

解析パイプラインの整備と最適化

【課題】 次世代シーケンシング(NGS)技術の運用において、ウエットベンチとドライベンチの両方で精度の高い解析を求められていました。特に、ドライベンチでは、複数の検体やシークエンスランから得られる膨大なデータを効率的に管理・解析することが大きな課題となりました。さらに、NGSの低頻度変異の検出やNGS解析対象外の変異についても追加解析のニーズがあり、これに対応するための柔軟なパイプライン構築が求められていました。 【工夫】 1.データ処理の効率化 Linux環境で動作するNGS測定機器からのデータ処理において、GUIではなくCUIを採用しました。Linuxの正規表現を使用して、シークエンスランの日付や検体名を指定することで、不要な情報を取得せず、必要なデータのみを自動的にダウンロードするプログラムを設計しました。この工夫により、複数の検体を一括で効率的にダウンロードできるようになり、作業時間が大幅に短縮されました。 2.解析パイプラインの構築と拡張 ダウンロードしたデータファイルを基に、検出された変異情報やランごとのクオリティ情報を効率的に整理する解析パイプラインを構築しました。このパイプラインは、を誰でも簡単に使用できるよう、VBAでユーザーフレンドリーなインターフェースを提供しました。当初としては、慣れているpythonにてこのパイプラインを設計しようとしたのですが、プログラムに不慣れな人もいるため1からVBAを学習し、誰でも使用できるようなパイプラインとしました。この工夫により、現在ではだれでも当パイプラインを活用でき、扱う人に左右されないスタンダードな解析を提供することに成功しました。 3.低頻度変異解析 NGSでは一定のアレル頻度であると変異が検出される仕組みになっています。そのため、変異は存在するが、低頻度であるためNGSが検知しないというパターンもあります。そこで解析をより完璧に近づけるために検知されない低頻度変異についても結果として返却するようにしました。具体的には、Linuxコマンドであるvcffillerを使用し、低頻度の変異を抽出するようにしました。ここで1点問題があり、Caverageが低い領域であると変異アレルが数リードでも検知してしまう点です。これには、全ての領域を探索し、Caverageが一定の数値を超えていたらvcffiletでの処理を行う用に設定しました。また、Caverageが閾値ギリギリであると作成しているlogに注意書きがされるように設定しました。 この工夫により、より確実な低頻度変異のみを抽出し、logファイルに注意することで怪しい変異等の見落としもなくなるようになりました。 4.追加解析 低頻度変異の検出の他にアレル頻度がある程度あっても、NGSが検知しない(NGSの測定対象外)の変異も存在します。その変異の検知のために、IGV(Integrative Genomics Viewer)を使用して目視により変異の有無を確認し、必要に応じて変異情報を解析対象に追加するプロセスを確立しました。このプロセスは、BEDファイルと呼ばれるNGSがどの変異を検知するかの指標となるファイルに測定対象外である変異の情報を記載し、再度解析をされるというものです。正確に解析されるためには、変異の情報を綿密に記載する必要があるので、バイオインフォマティクスの知識が必要となります。また、この際にframe shiftと呼ばれる変異であると終始コドンまで何アミノ酸要するかを記載する必要があります。3塩基ずつ地道に数えてもよいのですが、誤った情報を載せないためにpythonでそのスクリプトを構築しました。全てのアミノ酸のパターンを作成し関数としました。 この工夫により、NGS解析対象外である変異についても正確に検知することができ、現在では、3・4の工程を得て先方に結果を返すという解析ワークフローとなっています。 5.結果の精度向上とプロセス改善 3でも記載したように、解析データの解釈において、各アンプリコンのcoverageを検体ごとに取得し、十分でないアンプリコンについては信頼性が低いと判断し、レポートプロセスを改善しました。 この過程を資料にまとめ、coverageが少ないまたは、過剰な場合が散見される領域については、プライマーセットの見直しを製造販売元に提案し、解析の精度向上の一助となるようにしました。 【成果】 これらの工夫により、NGS解析の効率と精度が大幅に向上しました。CUIを活用したデータ処理により、複数検体の一括ダウンロードが可能となり、作業時間の短縮が実現しました。また、整備された解析パイプラインにより、低頻度変異やNGS解析対象外の変異にも柔軟に対応できるようになり、解析結果の信頼性が向上しました。結果として、研究施設内でのデータ解析プロセスが改善され、より高品質なデータを基にした研究が進展しました。疑陽性の変異に対する適切な対応も行われ、最終的なデータの品質向上に寄与しました。

2022年/2年以内

全ゲノムシーケンシング(WGS)と解析ワークフローの立ち上げ

【課題】 全ゲノムシーケンシング(WGS)は、ヒトゲノム全体を解析することで、疾患関連変異の発見や遺伝的多様性の理解を深め、新たなバイオマーカーを同定するために重要です。しかし、WGSを実施するための技術的経験やワークフローが整備されておらず、ゼロからの構築が必要でした。特に、ウエットベンチでのサンプル調製やシーケンスの精度向上、そしてドライベンチでのデータ処理と解析において、膨大なデータを効率的に処理し、正確な解析を行うためのシステムが未整備であったことが大きな課題となりました​(v2)。 【工夫】 1.ウエットベンチでのシーケンス調整 NovaSeq(Illumina社製)の次世代シーケンサーを用いて、ゲノムDNAのシーケンスを実施しました。最適なライブラリ調製法を選定し、シーケンスランの条件設定を細かく調整することで、高品質なシーケンスデータを取得しました。これにより、後続のドライベンチでの解析の基盤となる信頼性の高いデータを得ることに成功しました。 2.ドライベンチでのデータ解析フローの構築 BCLファイルからfastqファイルへの変換 ドライ工程では、Illumina社のBCL2fastqソフトウェアを使用し、BCLファイルをfastq形式に変換しました。Linux環境で動作するこのツールを用いることで、シーケンスされた配列のアダプター除去やデータのクオリティチェックを効率的に行いました。このプロセスにおいて、Linuxコマンドの知識を活かし、必要な配列情報のみを保持して、クリーンなシーケンスデータを生成しました。 3.BWAを使用したBAMファイルの生成 fastqファイルを参照ゲノムにマッピングするために、BWA(Burrows-Wheeler Aligner)を使用しました。BWAは、大規模ゲノムデータを効率的に処理できるツールであり、シーケンスデータを参照ゲノムにマッピングしてBAMファイルを生成しました。BAMファイルは、後続の変異解析に必要な標準的なファイル形式であり、解析の信頼性を高めるために、データの整合性チェックを行いながら実装しました。 4.GATK Mutect2によるVCFファイル生成 さらに、GATK(Genome Analysis Toolkit)のMutect2を使用し、BAMファイルからVCF(Variant Call Format)ファイルを生成しました。Mutect2は特にがん関連の変異検出に優れたツールであり、SNPsや小さな挿入欠失(indels)を高精度で検出するために活用しました。これにより、病的な変異を含む大規模ゲノムデータから、臨床的に重要な情報を抽出するパイプラインを確立しました。 5.Pythonによるデータ処理の自動化と統計解析 得られたVCFファイルを解析し、アレル頻度や変異の病的さに関する情報を効率的に取得するために、Pythonでスクリプトを作成しました。統計解析にはSciPyやPandasなどのライブラリを使用し、臨床的に重要な変異データを自動的に抽出する処理を実装しました。さらに、機械学習モデル(Scikit-learnなど)を活用して、疾患に関連する新たな変異を予測し、データセットから優位な変異情報を抽出する工夫を行いました。 6.ACMGガイドラインに準拠した解析 ワークフロー全体において、ACMG(American College of Medical Genetics and Genomics)ガイドライン2015に準拠して、解析の品質と信頼性を確保しました。このガイドラインに従うことで、病的な変異の解釈や報告において、臨床的に信頼性の高い結果を提供することができました。 【成果】 WGSのワークフローをゼロから立ち上げ、データ解析の全プロセスをリードした結果、効率的かつ高精度なゲノム解析システムを構築しました。BCLファイルからfastq、BAM、VCFファイルへの変換プロセスを整備し、Pythonを活用して自動化された解析フローを構築することで、解析速度と精度が向上しました​。また、ACMGガイドラインを遵守した解析により、信頼性の高い結果を臨床に提供することができました。これにより、WGSによる大規模なゲノムデータ解析が可能となりました。この結果が、疾患関連の変異や新たなバイオマーカーの発見につながっていると期待しています。

2020年/1年以内

スミスウォーターマンアルゴリズムを用いたカスタムマッピングツールの開発

【課題】 次世代シーケンシング(NGS)を用いた解析において、新型コロナウイルス(SARS-CoV-2)や新興ウイルスなどの新規病原体に対して、既存のマッピングツールが対応できないケースが課題となっていました。特に、新規の変異株や部分的なゲノム配列のマッピングでは、既存ツールの限界により迅速かつ正確な解析が困難でした。こうした緊急対応において、柔軟かつ高精度な配列アライメントを提供できる汎用的なマッピングツールの必要性が高まっていました​(v3)。 【工夫】 1.スミスウォーターマンアルゴリズムの選定 既存のツールでは対応が難しい新規病原体のゲノム配列に対し、スミスウォーターマンアルゴリズムを使用して局所アライメントを行うことにしました。スミスウォーターマンアルゴリズムは、短い配列間での高精度なマッチングを得意としており、特に部分的なゲノム配列に対する柔軟な対応が可能です。これにより、新興ウイルスや未知の病原体に対しても迅速かつ正確な解析が可能となりました。 2.Pythonによるカスタムマッピングツールの開発 Pythonを用いてスミスウォーターマンアルゴリズムを実装し、柔軟で効率的なカスタムマッピングツールを開発しました。Pythonは科学計算やバイオインフォマティクスの分野で広く利用されており、NumPyやSciPyなどのライブラリを活用することで、配列アライメントの計算を効率的に行うことができました。また、Pythonの扱いやすさを活かし、他の解析フローとも容易に統合できる汎用的なツールとして開発しました。 3.スクリプトの最適化と並列処理の導入 スミスウォーターマンアルゴリズムは計算量が多いため、配列アライメントの速度を向上させるために動的計画法を活用しました。さらに、Pythonのmultiprocessingライブラリを用いて並列処理を導入することで、大量のシーケンスデータに対するマッピング速度を大幅に改善しました。これにより、緊急時における大量のデータ処理や、新型コロナウイルスのような新興ウイルスに対する迅速な解析が可能となりました。 4.ギャップペナルティとスコアリングマトリックスの調整 ウイルス配列の多様性に対応するため、ギャップペナルティやスコアリングマトリックスを調整しました。これにより、特定のウイルス株や変異株に対する最適なアライメントが得られるよう工夫しました。スコアリングマトリックスのパラメータは、既存の病原体と比較しながら、最も正確なマッチングが得られるように調整しました。 【成果】 このカスタムマッピングツールは、新型コロナウイルスを含む多様なウイルスゲノム解析に応用され、既存ツールでは対応できない新規変異株や部分的なゲノム配列にも高精度で対応できるようになりました。特に、迅速な解析が必要な緊急時においても、大量のシーケンスデータを効率的に処理し、正確なアライメント結果を得ることが可能となりました​。 並列処理の導入により、マッピング速度が大幅に向上し、短期間での大量データ処理が実現しました。また、スミスウォーターマンアルゴリズムをベースとしたツールの柔軟性により、新興病原体の迅速な検出や解析能力が飛躍的に向上しました。このプログラムを使用し、約1000検体のウイルスゲノムの解析を行いました。

プロジェクトカテゴリ
担当工程
経験した職種・役割
あなたが実際に使っていた技術
このプロジェクト詳細は公開されていません

プロジェクトカテゴリ
担当工程
経験した職種・役割
あなたが実際に使っていた技術
このプロジェクト詳細は公開されていません

マネージメント能力

このマネージメント能力は公開されていません

アピール項目


アウトプット

GitHub アカウント
未入力です
Qiita アカウント
未入力です
Zenn アカウント
未入力です
Speaker Deck アカウント
未入力です
SlideShare アカウント
未入力です
特にアピールしたいアウトプット
未入力です

今後、身につけなければいけないと思っている技術は何ですか?

深層学習(Deep Learning): 画像処理や自然言語処理、時系列データの分析に有効。特に、TensorFlowやPyTorchのフレームワークを習得し、モデル開発を行うことで、予測精度を高めること。 AWS、Google Cloud、Microsoft Azure: クラウドプラットフォームを活用して、大規模なデータ処理や機械学習モデルの展開。特に、AWS LambdaやGoogle Cloud Functionsのようなサーバーレス技術にも興味がある。

あなたが一番パフォーマンスを出せるのはどんな環境ですか?

未入力です

キャラクター

直近で一番やりたいこと
技術を極めたい
好きなスタイル
好きな規模
自信を持って人より秀でていると言える点
学習能力 / 分析力 / 交渉力
スキルのタイプ
得意なフェーズ
会社を選ぶ一番の基準
会社の安定性
やりたくない分野
未入力です
その他の特徴
未入力です
その他のやりたいこと・やりたくないこと
未入力です

やりたい事

手を動かして設計してコードを書きたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
価値あるプロダクトを作り成長させたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
学び続けて技術力でプロダクトに貢献したい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
意義があることや社会に貢献できる仕事がしたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
人や計画の調整・マネジメントをしたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
レガシーなシステムの保守・運用・改善をしたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
企画や仕様を考えるところから関わりたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
業務効率を改善して一緒に働く人のためになりたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
全社横断的な共通基盤作りや強化をしたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい
組織や文化を作る・成長させる仕事をしたい
絶対やりたくない
あまりやりたくない
別に普通
やりたい
絶対やりたい

基本プロフィール

年齢
今年で20代後半
好きな Text Editor
Visual Studio Code
希望勤務地
千葉県 / 東京都 / 神奈川県
希望年収
600万円
転職ドラフトに参加して
企業から指名を受け取ろう!
会員登録をして転職ドラフトに参加すると、参加企業から年収付きの指名を受け取ることができるようになります。
会員登録する
ご意見箱

要望、不具合報告、使いづらい点や感想など、お気軽にお寄せください。
いただいたご意見は、今後のサービス向上に活用させていただきます。

なお、このフォームは受付専用のため、返信を行っておりません。
返信を希望する場合はお問い合わせよりご連絡ください。

  • {{error}}
SIGN UPSIGN IN


転職ドラフトを友人や同僚に薦める可能性はどのくらいありますか?