У Эньхуэй, Цяо Лян*
Факультет химии Фуданьского университета, Шанхай 200433, Китай
Микроорганизмы тесно связаны с болезнями и здоровьем человека. Как понять состав микробных сообществ и их функции — серьезный вопрос, который необходимо срочно изучить. В последние годы метапротеомика стала важным техническим средством изучения состава и функций микроорганизмов. Однако из-за сложности и высокой гетерогенности образцов микробного сообщества обработка образцов, сбор данных масс-спектрометрии и анализ данных стали тремя основными проблемами, с которыми в настоящее время сталкивается метапротеомика. В метапротеомном анализе часто необходимо оптимизировать предварительную обработку различных типов образцов и применять различные схемы разделения, обогащения, экстракции и лизиса микроорганизмов. Подобно протеому одного вида, режимы сбора данных масс-спектрометрии в метапротеомике включают режим сбора данных, зависящего от данных (DDA), и режим сбора данных, независимого от данных (DIA). Режим сбора данных DIA позволяет полностью собирать информацию о пептидах образца и имеет большой потенциал для развития. Однако из-за сложности образцов метапротеома анализ данных DIA стал серьезной проблемой, которая препятствует глубокому охвату метапротеомики. С точки зрения анализа данных, наиболее важным шагом является создание базы данных последовательностей белков. Размер и полнота базы данных не только оказывают большое влияние на количество идентификаций, но также влияют на анализ на видовом и функциональном уровнях. В настоящее время золотым стандартом построения базы данных метапротеомов является база данных последовательностей белков, основанная на метагеноме. В то же время было доказано, что метод фильтрации общедоступных баз данных, основанный на итеративном поиске, имеет большое практическое значение. С точки зрения конкретных стратегий анализа данных, пептид-центрированные методы анализа данных DIA заняли абсолютное мейнстрим. С развитием глубокого обучения и искусственного интеллекта это значительно повысит точность, охват и скорость анализа макропротеомных данных. Что касается последующего биоинформатического анализа, в последние годы был разработан ряд инструментов аннотации, которые могут выполнять аннотацию видов на уровне белков, пептидов и генов для получения состава микробных сообществ. По сравнению с другими методами омики функциональный анализ микробных сообществ является уникальной особенностью макропротеомики. Макропротеомика стала важной частью мультиомного анализа микробных сообществ и по-прежнему имеет большой потенциал развития с точки зрения глубины охвата, чувствительности обнаружения и полноты анализа данных.
01Предварительная обработка проб
В настоящее время технология метапротеомики широко используется в исследованиях микробиома человека, почвы, продуктов питания, океана, активного ила и других областях. По сравнению с анализом протеома одного вида, предварительная обработка метапротеома сложных образцов сталкивается с большими проблемами. Микробный состав реальных образцов сложен, динамический диапазон численности велик, структура клеточной стенки разных типов микроорганизмов сильно различается, а образцы часто содержат большое количество белков-хозяев и других примесей. Поэтому при анализе метапротеома часто необходимо оптимизировать различные типы образцов и применять различные схемы разделения, обогащения, экстракции и лизиса микробов.
Экстракция микробных метапротеомов из разных образцов имеет определенные сходства, а также некоторые различия, но в настоящее время отсутствует единый процесс предварительной обработки различных типов образцов метапротеомов.
02Сбор данных масс-спектрометрии
При дробовом протеомном анализе смесь пептидов после предварительной обработки сначала разделяется в хроматографической колонке, а затем после ионизации поступает в масс-спектрометр для сбора данных. Подобно анализу протеома одного вида, режимы сбора данных масс-спектрометрии при анализе макропротеома включают режим DDA и режим DIA.
Благодаря непрерывной итерации и обновлению инструментов масс-спектрометрии к метапротеому применяются инструменты масс-спектрометрии с более высокой чувствительностью и разрешением, а глубина охвата анализа метапротеома также постоянно улучшается. В течение длительного времени в метапротеоме широко используется серия масс-спектрометрических приборов высокого разрешения под руководством компании Orbitrap.
В таблице 1 исходного текста показаны некоторые репрезентативные исследования по метапротеомике с 2011 года по настоящее время с точки зрения типа образца, стратегии анализа, инструмента масс-спектрометрии, метода сбора данных, программного обеспечения для анализа и количества идентификаций.
03Анализ данных масс-спектрометрии
3.1 Стратегия анализа данных DDA
3.1.1 Поиск в базе данных
3.1.2зановостратегия последовательности
3.2 Стратегия анализа данных DIA
04Классификация видов и функциональная аннотация
Состав микробных сообществ на разных таксономических уровнях является одним из ключевых направлений исследований микробиома. В последние годы был разработан ряд инструментов аннотации для аннотирования видов на уровне белков, пептидов и генов для получения состава микробных сообществ.
Суть функциональной аннотации заключается в сравнении последовательности целевого белка с базой данных функциональных последовательностей белков. Используя базы данных функций генов, такие как GO, COG, KEGG, eggNOG и т. д., можно выполнять различные анализы функциональных аннотаций белков, идентифицируемых макропротеомами. Инструменты аннотирования включают Blast2GO, DAVID, KOBAS и т. д.
05Резюме и прогноз
Микроорганизмы играют важную роль в здоровье и заболевании человека. В последние годы метапротеомика стала важным техническим средством изучения функций микробных сообществ. Аналитический процесс метапротеомики аналогичен процессу одновидовой протеомики, но из-за сложности объекта исследования метапротеомики на каждом этапе анализа необходимо применять конкретные исследовательские стратегии, от предварительной обработки образца, сбора данных до анализа данных. В настоящее время, благодаря совершенствованию методов предварительной обработки, постоянным инновациям технологии масс-спектрометрии и быстрому развитию биоинформатики, метапротеомика достигла больших успехов в глубине идентификации и сфере применения.
В процессе предварительной обработки образцов макропротеома в первую очередь необходимо учитывать природу образца. Как отделить микроорганизмы от клеток и белков окружающей среды — одна из ключевых проблем, стоящих перед макропротеомами, а баланс между эффективностью разделения и потерями микробов — неотложная проблема, которую необходимо решить. Во-вторых, при экстракции белков микроорганизмов необходимо учитывать различия, вызванные структурной неоднородностью разных бактерий. Образцы макропротеома в следовых количествах также требуют специальных методов предварительной обработки.
Что касается инструментов масс-спектрометрии, основные масс-спектрометрические инструменты претерпели переход от масс-спектрометров на основе масс-анализаторов Orbitrap, таких как LTQ-Orbitrap и Q Exactive, к масс-спектрометрам на основе времяпролетных масс-анализаторов, связанных с подвижностью ионов, таких как timsTOF Pro. . Приборы серии timsTOF с информацией о размерах подвижности ионов имеют высокую точность обнаружения, низкий предел обнаружения и хорошую повторяемость. Постепенно они стали важными инструментами в различных областях исследований, требующих обнаружения масс-спектрометрией, таких как протеом, метапротеом и метаболом одного вида. Стоит отметить, что динамический диапазон масс-спектрометрических инструментов долгое время ограничивал глубину белкового покрытия при исследованиях метапротеома. В будущем инструменты масс-спектрометрии с большим динамическим диапазоном смогут повысить чувствительность и точность идентификации белков в метапротеомах.
Для сбора данных масс-спектрометрии, хотя режим сбора данных DIA получил широкое распространение в протеоме одного вида, в большинстве современных анализов макропротеома по-прежнему используется режим сбора данных DDA. Режим сбора данных DIA может полностью получить информацию о фрагментных ионах образца, и по сравнению с режимом сбора данных DDA он потенциально может полностью получить информацию о пептидах образца макропротеома. Однако из-за высокой сложности данных DIA анализ данных макропротеома DIA по-прежнему сталкивается с большими трудностями. Ожидается, что развитие искусственного интеллекта и глубокого обучения повысит точность и полноту анализа данных DIA.
При анализе данных метапротеомики одним из ключевых этапов является построение базы данных последовательностей белков. Для популярных областей исследований, таких как кишечная флора, можно использовать базы данных кишечных микробов, такие как IGC и HMP, и были достигнуты хорошие результаты идентификации. Для большинства других метапротеомных анализов наиболее эффективной стратегией создания базы данных по-прежнему является создание базы данных последовательностей белков для конкретных образцов на основе данных метагеномного секвенирования. Для образцов микробного сообщества высокой сложности и большого динамического диапазона необходимо увеличить глубину секвенирования, чтобы повысить идентификацию видов с низкой численностью, тем самым улучшая охват базы данных последовательностей белков. Если данные секвенирования отсутствуют, для оптимизации общедоступной базы данных можно использовать метод итеративного поиска. Однако итеративный поиск может повлиять на контроль качества FDR, поэтому результаты поиска необходимо тщательно проверять. Кроме того, все еще стоит изучить применимость традиционных моделей контроля качества FDR в метапротеомном анализе. С точки зрения стратегии поиска, стратегия гибридной спектральной библиотеки может улучшить глубину охвата метапротеомики DIA. В последние годы предсказанная спектральная библиотека, созданная на основе глубокого обучения, показала превосходную эффективность в протеомике DIA. Однако базы данных метапротеома часто содержат миллионы записей о белках, что приводит к большому размеру предсказанных спектральных библиотек, потребляет много вычислительных ресурсов и приводит к большому пространству поиска. Кроме того, сходство между белковыми последовательностями в метапротеомах сильно различается, что затрудняет обеспечение точности модели прогнозирования спектральной библиотеки, поэтому предсказанные спектральные библиотеки не нашли широкого применения в метапротеомике. Кроме того, необходимо разработать новые стратегии вывода белков и классификации аннотаций, которые можно было бы применять к метапротеомному анализу белков с высокой степенью сходства последовательностей.
Таким образом, как новая технология исследования микробиома, технология метапротеомики достигла значительных результатов исследований, а также имеет огромный потенциал развития.
Время публикации: 30 августа 2024 г.