
Les recherches sur le repliement des protéines ont fait un bond en avant grâce à l’initiative d’Apple, qui a développé SimpleFold, une méthode d’IA prometteuse pour prédire la structure 3D des protéines. Alors que les modèles comme AlphaFold de Google DeepMind offrent des résultats exceptionnels, ils demeurent coûteux en calculs. Face à ce défi, les chercheurs d’Apple ont exploré une alternative.
Pour ceux qui ne connaissent pas AlphaFold, il s’agit d’un modèle révolutionnaire capable de prédire la structure 3D d’une protéine à partir de sa séquence d’acides aminés, facilitant ainsi le développement de médicaments plus efficaces et de nouveaux matériaux. Auparavant, prédire la structure atomique d’une seule protéine pouvait prendre des mois, voire des années.
Cependant, grâce à AlphaFold et d’autres modèles de pointe comme RoseTTAFold et ESMFold, ce processus a été considérablement accéléré, prenant parfois seulement quelques heures, voire minutes, selon le matériel utilisé.
Ces modèles utilisent des méthodes et des cadres variés pour atteindre une telle précision, mais ils nécessitent tous des calculs onéreux et ont des structures rigides. Comme le soulignent les chercheurs d’Apple, les modèles établis comme AlphaFold2 et RoseTTAFold sont basés sur des architectures conçues spécifiquement pour des tâches de repliement des protéines, ce qui rend leur fonctionnement lourd.
« Les modèles de repliement de protéines comme AlphaFold2 et RoseTTAFold ont atteint une précision révolutionnaire grâce à des conceptions spécifiquement adaptées, intégrant des calculs lourds pour des tâches de repliement. Ces choix de conception tentent de coder notre compréhension actuelle du processus de génération de structures, au lieu de laisser le modèle apprendre directement à partir des données. »
LA RÉVOLUTION SIMPLEFOLD
Dans leur nouveau modèle, SimpleFold, Apple évite les modules géométriques rigides tels que les alignements multiples de séquences (MSA) et les mises à jour triangulaires, optant plutôt pour des modèles de correspondance de flux. Ces derniers, popularisés en 2023 pour des applications comme les modèles de texte à image, apprennent un chemin plus fluide qui transforme directement le bruit aléatoire en une image finie.
Cette méthode, en contournant plusieurs étapes de débruitage, est moins coûteuse en calcul et produit des résultats plus rapidement.
Les chercheurs ont entraîné SimpleFold avec plusieurs tailles de modèles, allant de 100 millions à 3 milliards de paramètres, et ont évalué ses performances sur deux benchmarks de prédiction de structures protéiques largement adoptés : CAMEO22 et CASP14, qui testent la généralisation, la robustesse et la précision au niveau atomique.
Les résultats sont prometteurs :
« Malgré sa simplicité, SimpleFold atteint des performances compétitives par rapport à ces références. Sur CAMEO22, SimpleFold présente des résultats comparables aux meilleurs modèles de repliement comme ESMFold, RoseTTAFold2 et AlphaFold2, obtenant plus de 95 % des performances de RoseTTAFold2/AlphaFold2 sur la plupart des indicateurs sans recourir à des attentions expérimentales coûteuses. »
Ils ont également observé des améliorations de performance en fonction de la taille, indiquant que des modèles plus gros avec plus de données d’entraînement fournissent une meilleure performance en repliement, surtout sur les benchmarks les plus difficiles.
SimpleFold marque une première étape, et les chercheurs espèrent qu’il pourra motiver la communauté à construire des modèles génératifs de protéines efficaces et puissants.
Vous pouvez consulter l’étude complète sur arXiv.