① プロジェクト概要
大手化学メーカーからマテリアルインフォマティクス用のデータ成形システムの研究開発と実装を受託した
② どのような機能・課題に対して
お客様で保持されている過去の実験データは様々形態で保存されていた(例えば、PDF、紙、ワード、excel)。また、記録形式が統一されておらず、お客様のマテリアルインフォマティクス用システムで活用できないという課題があった。そこで、千差万別の形式の実験データをある統一フォームの自動的変換するアルゴリズムが必要であった。
③ どのような技術を用いて
自然言語処理分野の1つの指標であるレーベンシュタイン距離を用いて、実験データにある文字列が統一フォーマットにある文字列(評価項目、実験結果、材料名、実験者名等)どの程度近いかを計算し、最も転記場所として可能性の高い箇所の転記するようにした。
④ どのような工夫をし
上記、自然言語処理の技術だけでは、転記精度に限界があった。そこで、①実験者の習慣、②罫線などの情報(excelで2重罫線の上下には異なるカテゴリの項目が記載されることが多い等)の知見をアルゴリズムに加えることで、精度向上を図った。また、実験データには日本語と英語が混在するためPythonからGoogle翻訳を呼び出して(googletransの利用)表記揺れを統一した上でアルゴリズムに入力するようにした。
⑤ どのような成果を生み出せたか
実験データ→統一フォーマットの転記精度を70%を達成した。これにより、従来人による転記を行っていた大部分を自動化でき、一つの実験データを統一フォーマットに転記する時間を60%削減できた。これにより、さらに自動化により人件費を年間300万円削減するとともに、お客様のマテリアルインフォマティクス活用を加速することができた。