在这个严重内卷、乱象从生的时代,如果有人问我:孩子未来学什么专业最好,从事什么行业最有前途?从乐观的角度来看,我觉得应该奔着“生物+计算机”方向,具体说来就是要与结构生物学相关联。
事实上,结构生物学取得巨大的成功,已经不是一天的新闻了,据说上海某研究所的博士每天工作17小时,连续在Cell、Nature上连续发文,取得了极大的声誉和成功。其实在这个领域,这并不奇怪,只要你足够努力,成果便会层出不穷。
原因要具体说起来,也十分的简单,人类构建的科学大厦有一个明显的缺口:在物理方面,我们已经可以解释原子、分子运动,但对于这些原子、分子是如何搭建出大分子是不得而知的。我们人体的细胞中包括细胞膜、细胞质(包括细胞质基质和众多的细胞器),细胞核(包括核膜(上面有核孔)、核质、核液、染色质(细胞分裂时,经高度螺旋化成为染色体)、核仁)等,蛋白质是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与。一般说,蛋白质约占人体全部质量的18%,最重要的还是其与生命现象有关。尽管人体内蛋白质的种类很多,性质、功能各异,但都是由20多种氨基酸(Aminoacid)按不同比例组合而成的,并在体内不断进行代谢与更新。在这个过程中,DNA指导蛋白质的合成,DNA可以通过转录和翻译过程来控制蛋白质的合成。在真核生物细胞核中,DNA和蛋白质共同构成了染色体(或染色质),其中DNA的复制、表达等过程需要蛋白质的参与(比如酶类)。
细胞、蛋白质、DNA,图片源自互联网这些年在生物中组学研究越来越深入,随着对基因组和转录组的研究,人们对生命的认识越来越丰富和清晰。研究人员仅仅用了一代人的时间就大致捋清了从DNA到转录RNA,再到蛋白质表达的脉络:其中DNA是核心的遗传物质,RNA以DNA为模板转录出来,作为蛋白质表达的模板,细胞根据RNA三个碱基对应一个特定氨基酸的方式来翻译出所需的蛋白质序列,而蛋白质才是最终生命过程中各种生化反应的执行者。同时,大量的研究告诉我们,蛋白质的功能由他的结构决定,而结构则取决于它根据RNA碱基序列翻译得到的氨基酸序列。如此看来,只要我们对基因组测序,就可以直接得到最终蛋白质的结构,并且由各种蛋白质的功能构建出一个生命模型。
氨基酸——DNA,图片源自互联网这个科技缺口正在被飞速的填补着,冷冻电镜技术(cryo-electronmicroscopy,简称cryo-EM)
的进步,使得我们可以近距离的观察蛋白质分子,可以为蛋白质分子建模,去解析蛋白质的结构,了解其工作的原理。这项工作不仅仅可以让我们了解更多的生命奥秘,也可以研究出更多的高效药品。这显然是一个极为有前景的专业。了解蛋白质的结构、功能,获得直接的生命模型。在这个无比强大的驱动力作用下,一个接一个科技成果被发布出来,这方面的论文也就成了Cell、Nature上的常客。即便如此,我们也很难去把所有的蛋白质去观察一遍,自然界中的蛋白种类实在太多了!到目前为止,在全世界科研机构的共同努力下,现在已经有超过个人类蛋白质结构被解析,使智人成为迄今为止在蛋白质数据库(PDB)中最具有代表性的物种。即使如此,仍然只有35%的人类蛋白质被登记到PDB数据库中,而且在许多情况下,结构只包括序列的一个片段。实验性结构测定需要克服许多耗时的障碍:必须生产足够数量的蛋白质、进行纯化、选择适当的样品制备条件并收集高质量的数据。而不同的制备方法、蛋白质的大小、跨膜区域的存在、无序结构的存在或对构象变化的敏感性等进一步的限制结构的解析过程。因此,蛋白质组的全面结构覆盖仍然是一个突出且巨大的挑战。
因此,能够快速预测、解析蛋白结构模型的工具,就成了科学前沿的热点话题。人工智能技术再次被推向了前台——通过与已知结构的蛋白序列进行相似性比较来预测目的蛋白的结构。这种思路的核心思想就是具有相似的氨基酸序列的蛋白的三维结构也相似。据此,研究人员各自开发了很多线上的工具供国际上其他的研究人员使用,通过这些工具,根据已发布的蛋白质结构,就可以预测、解析一些未知的蛋白质结构。从而去更多的了解生命的奥秘。
对于有些蛋白质,算法已经能够给出很不错的结果了,一些软件已经可以预测蛋白质二级和三级结构。不同物种间存在着大量的功能、结构以及序列都相似的蛋白质,这些序列被称为同源序列。不同物种的蛋白质氨基酸序列之间肯定是存在差别的,但通过精巧的计算机算法,可以将它们彼此对应的序列区域找到,就好比人和人虽然长得各不相同,但我们始终能在不同的脸上找到各自的鼻子、眼睛等器官并将它们在不同的脸中对应好。
AlphaFold2,图片源于互联网当前,在这个行业内部,出现了大量的免费在线工具,甚至还有人为此建立了网站CAMEO,帮助研究人员把需要预测的蛋白序列一次发给所有在其系统注册的结构预测服务器,并根据各自的计算速度,准确性等一系列指标对预测结果进行排序。“这个领域迎来了一个新的时代,兴奋地令人窒息。
这些年在生物中组学研究越来越深入,随着对基因组和转录组的研究,人们对生命的认识越来越丰富和清晰。蛋白组学也取得了很大进展,目前虽然对蛋白质的折叠问题都还没有研究透彻,但各种技术的更新迭代,例如X射线晶体学,电子显微镜以及数据分析的新方法正在以前所未有的速度持续给出蛋白质结构的新知识。
年11月30日,英国DeepMind公司的AlphaFold2人工智能程序在蛋白质结构预测大赛CASP14中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电子显微镜等复杂仪器观察预测的水平,这是蛋白质结构预测史无前例的巨大进步。中国科学院院士施一公对媒体说:“依我之见,这是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一,是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就。”据了解,目前整个人类蛋白质组(98.5%的人类蛋白质)都已被被AlphaFold破译,这已经极大地扩展了蛋白结构覆盖率。由此产生的数据集包含了58%的残基具有较高置信度,其中一个子集(占所有残基的36%)具有非常高的置信度。这将极大程度的激发基础科学、药物研发、合成生物学设计方面的未来发展。
冷冻电镜——图片源自互联网注释
:电子显微三维重构技术起源于年,D.J.DeRosier和AaronKlug在Nature上发表了一篇关于利用电子显微镜照片重构T4噬菌体尾部三维结构的著名论文,提出并建立了电子显微三维重构的一般概念和方法。AaronKlug本人也因为这个开创性的工作获得了年的诺贝尔化学奖。为了降低高能电子对分子结构的损伤,KennethA.Taylor和RobertM.Glaeser于年提出了冷冻电镜技术,并且用于实验研究。经过三十多年的发展,冷冻电镜技术已经成为研究生物大分子结构与功能的强有力手段。冷冻电镜本质上是电子散射机制,基本原理就是把样品冻起来然后保持低温放进显微镜里面,利用相干的电子作为光源对分子样品进行测量,透过样品和附近的冰层,透镜系统把散射信号转换为放大的图像在探测器上记录下来,最后进行信号处理,得到样品的三维结构。光学显微镜的分辨率极限就是几千埃(1埃是0.1纳米),因为可见光的波长范围就在几百纳米之间。如果我们使用电子对物质进行测量,例如电子显微镜的电子能量通常在keV(此时电子的波长为0.02埃),那么理论上来说分辨率的极限就可以到不到1埃。但是电子的能量太大了,一般的生物类样品经受不住多久电子的轰击就会被打的乱七八糟。而且,不仅仅样品无法耐受高能电子的猛烈轰击,之前就连电子显微镜本身也难以找到能够经受电子长时间轰击的感“光”器件,当前,冷冻电镜技术的突破性进步主要就是在传感器方面,年后,一个由美国*府资助的项目研究出了一种新的可以捕捉单个电子信号的传感器,让冷冻电镜的分辨率一下提升到可以识别几百kDa(千道尔顿)的蛋白结构的程度,我们现在最好的记录是看到了2.2埃左右的尺度。
冷冻电镜最大的缺点恐怕还不是技术方面,它太贵了,一套完整的冷冻电镜设备需要花费几百万美元,仅每年的维护费用就有数十万美元——而且你还没得选——全球的供应商就那么几家,FEI,DirectElectron以及Gatan。只有那些土豪实验室或者国家级研究所能够搞得起这东西