Классификация дифракционных изображений по типам биомолекул, исследуемых в экспериментах на лазерах на свободных электронах, с помощью методов машинного обучения (по материалам кандидатской диссертации)

Метод когерентной рентгеновской дифракционной микроскопии (CXDI) на лазерах на свободных электронах даёт возможность определения трёхмерной
структуры наноразмерных объектов, в том числе таких биологических частиц как белки и вирусы, с разрешением до 1 Å. Экземпляры изучаемого объекта вводятся в пучок когерентного рентгеновского излучения в случайных ориентациях и собираются дифракционные изображения, на основе которых определяется трёхмерная структура. Однако, большинство получаемых изображений пустые, многие изображения относится к частицам примеси, другие содержат дифракционную картину от нескольких частиц. Все такие изображения должны быть исключены из анализа, что может быть сделано на основе классификации по типу структуры. Автором разработаны методы для классификации дифракционных изображений, получаемых в экспериментах CXDI, в соответствии с типом структуры исходной частицы. Методы основаны на подходах машинного обучения: метод опорных векторов, кластерный анализ, искусственные нейронные сети и другие. Проведено исследование эффективности предложенных методов на разных наборах экспериментальных данных, полученных на лазере на свободных электронах LCLS (Стэнфорд). Исследована точность и полнота классификации, скорость работы рассмотренных подходов, определены оптимальные размеры обучающих наборов при классификации. В 2017 году начала работу установка класса мегасайенс European XFEL (Гамбург), которая позволяет регистрировать до 27000 дифракционных изображений в секунду с уникальными характеристиками фемтосекундных импульсов рентгеновского типа. В работе исследована возможность классификации изображений, получаемых в экспериментах на uropean XFEL, в потоковом режиме.