摘要:摘要:目的 评估ChatCPT-4.0、ERNE Bot-4.0在检验医学领域的应用表现,探讨其在专业领域内的应用潜力及面临的挑战。方法以全国临床医学检验技术(中级)考试真题作为基准,对比2个模型在检验医学知识掌握和答题一致性方面的表现;通过30个检验医学病例评估模型在检验结果解读和辅助诊断方面的能力。结果在临床医学检验技术测试中,2个模型均通过了60%的合格线。ChatCPT-4.0在答题速度和一致性方面优于ERNIE Bot-4.0,但在答题正确率上明显低于ERNE Bot-4.0(73.25% vs 80.75% ) ,且 ERNE Bot-4.0正确率高于临床检验人员此项考试的平均正确率78.03%。不同题型正确率分析方面, ERNIE Bot-4.0和ChatCPT-4.0均在实验技术题型中表现最差(66.32%和60.53%) ,在医学基础知识题型上表现最好,成绩都为86.00%。在病例分析测试中,ERNIE Bot-4.0的各项评分均高于ChatGCPT-4.0,两者均在常规病例分析上表现良好,但在复杂病例分析中会发生错误。结论﹑在检验医学领域,2个大语言模型都展现出了一定的应用潜力,特别是在中文环境下,ERNE Bot-4.0在答题正确率和病例分析能力方面显著优于ChatCPT-4.0,这显示了其在国内应用中的相对优势。不过,2个模型在实验技术知识、复杂病例的分析能力以及结果输出的准确性和一致性方面还有待提升。在现阶段,直接将这类通用型大语言模型应用于临床检验结果解读及辅助诊断仍存在一定风险,这为检验报告的解读提供了新的研究方向。