网站建设公司建设,百度指数手机版,免费推广网站在线观看,营销网站建设阿凡达大模型如火如荼发展#xff0c;不能只看热闹#xff0c;也需要躬身入局。要想评估大模型的能力#xff0c;必须有一个评估方法和评估数据集。下面就梳理下当前大模型是如何评估代码能力的
权威评估
opencompass: https://opencompass.org.cn/datalearner: https://www.dat…大模型如火如荼发展不能只看热闹也需要躬身入局。要想评估大模型的能力必须有一个评估方法和评估数据集。下面就梳理下当前大模型是如何评估代码能力的
权威评估
opencompass: https://opencompass.org.cn/datalearner: https://www.datalearner.com/ai-models/llm-coding-evaluationllm-leaderboardhttps://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
评估指标
OpenAI 提出的 passk 作为评价指标来计算
编码能力评估
humaneval-x主要是类似 LeetCode 的编程题。 https://huggingface.co/datasets/THUDM/humaneval-xhumaneval一个手写的问题解决数据集要求根据给定的问题和代码模板生成正确的代码片段。这个数据集包含了164个高质量的问题涵盖了五种编程语言Python, C, Java, Go, 和 JavaScript。这些问题涉及了不同的编程概念如控制流、数据结构、算法、输入输出等。https://github.com/openai/human-evalMBPP (Mostly Basic Python Programming)由大约 1,000 个众包的 Python 编程问题组成旨在由入门级程序员解决涵盖编程基础知识、标准库功能等。 每个问题都包含任务描述、代码解决方案和 3 个自动化测试用例。
总结
从数据集来看目前大模型支持更多还是函数级别。涉及不到类层面。因此Java 语言的评估模型是不是需要优化
参考
1、Large Language Model Evaluation in 2023: 5 Methods (aimultiple.com) https://research.aimultiple.com/large-language-model-evaluation/ 2、Evaluating the Code Quality of AI-Assisted Code Generation Tools: An Empirical Study on GitHub Copilot, Amazon CodeWhisperer, and ChatGPT https://arxiv.org/pdf/2304.10778.pdf 3. HumanEval Benchmark (Code Generation) | Papers With Code 4. Evaluating Large Language Models Trained on Code 5. THUDM/CodeGeeX2: CodeGeeX2: A More Powerful Multilingual Code Generation Model (github.com) 6. 常见大模型数据集