项目编号:【37495】
根据提供的蛋白乙酰化数据,结合ESM,BERT等大语言模型训练,训练能够根据蛋白序列预测蛋白酰化修饰位点的数学模型,具体流程请参考附件文献。
大概思路:输入大量明确酰化修饰位点的蛋白序列(训练集),基于ESM或BERT等大语言模型进行Feature encoding, 随后通过Bi-LSTM,TCN等深度学习网络进行Feature decoding, 随后用独立的明确酰化修饰位点的蛋白序列集(验证集)进行模型的评估(ACC,MCC,AUROC等)。
需要的技能:大语言模型,AI编程,深度学习等,最好有一定生物背景。目前已经完成了初步的构建,基于BERT的酰化位点预测模型AUROC可以达到70%,ACC可以达到69%,目前需要对模型进一步优化。