機械学習に質問をさせることで賢くなる(Allowing Machine Learning to Ask Questions Can Make It Smarter)

ad

2023-07-26 デューク大学(Duke)

◆デューク大学のバイオメディカルエンジニアは、新しい手法を用いて機械学習モデルの効果を向上させることに成功しました。この手法では、利用可能なデータの一部を積極的に活用することで、正確性が2倍以上向上することが示されました。
◆この手法は、新薬候補や他の材料の開発に有用な分子の特性を科学者が特定・分類するのを容易にします。研究成果はロイヤル・ソサエティ・オブ・ケミストリーのジャーナルに掲載され、特に薬の発見と開発において偏りのあるデータセットに対処するために有望な手法として注目されています。
◆このアプローチにより、必要なデータ量が予想よりも低くなる場合もあり、機械学習の性能向上だけでなく、データの貯蔵とコストの削減にも貢献することが期待されています。

<関連情報>

能動学習を用いた適応的サブサンプリングによる分子機械学習の改善 Improving molecular machine learning through adaptive subsampling with active learning

Yujing Wen,Zhixiong Li,Yan Xiang and Daniel Reker
Digital Discovery  Published:23 Jun 2023
DOI:https://doi.org/10.1039/D3DD00037K

機械学習に質問をさせることで賢くなる(Allowing Machine Learning to Ask Questions Can Make It Smarter)

Abstract

Data subsampling is an established machine learning pre-processing technique to reduce bias in datasets. However, subsampling can lead to the removal of crucial information from the data and thereby decrease performance. Multiple different subsampling strategies have been proposed, and benchmarking is necessary to identify the best strategy for a specific machine learning task. Instead, we propose to use active machine learning as an autonomous and adaptive data subsampling strategy. We show that active learning-based subsampling leads to better performance of a random forest model trained on Morgan circular fingerprints on all four established binary classification tasks when compared to both training models on the complete training data and 16 state-of-the-art subsampling strategies. Active subsampling can achieve an increase in performance of up to 139% compared to training on the full dataset. We also find that active learning is robust to errors in the data, highlighting the utility of this approach for low-quality datasets. Taken together, we here describe a new, adaptive machine learning pre-processing approach and provide novel insights into the behavior and robustness of active machine learning for molecular sciences.

1602ソフトウェア工学
ad
ad
Follow
ad
タイトルとURLをコピーしました