1 LLM测评以及本地大模型部署¶
参考:
1.1 LLM和LVM¶
1.1.1 LLM¶
1.1.2 VLM¶
1.2 LLM模型测评¶
最近初步了解大模型时,经常被各种 LLMs 模型搞的眼花缭乱,想要挑选一个性能还不错在本地部署大模型,所以这里收集了一些被广泛认可且目前还比较活跃的LLMs评测榜单,用于跟踪最新的模型和效果。
1.2.1 LMSYS¶
简介:LMSYS
推出的 Chatbot Arena
是一个以众包方式进行匿名的LLMs
基准平台,主要包含以下3个基准:
- Chatbot Arena:一个大语言模型基准平台,目前已有 90K+ 用户的投票数据,采用 Elo 评级方法进行计算得到的结果。
- MT-Bench:一个多轮问题对话 benchmark,并且使用 GPT-4 的结果作为标准进行评分。
- MMLU (5-shot):一个常用于衡量模型在多任务准确性的
benchmark
,主要涵盖了基础数学、美国历史、计算机科学、法律等57项任务。
Leaderboard:Chatbot Arena Leaderboard
GitHub:https://github.com/lm-sys/FastC
1.2.2 Open LLM Leaderboard¶
简介:由Hugging Face
发布,**主要针对英文**的评测榜单,旨在跟踪、排名和评估开源的LLMs
- AI2 Reasoning Challenge (25-shot):主要涵盖了一些小学科学问题。
- HellaSwag (10-shot):常识推理数据集
- MMLU (5-shot):一个常用于衡量模型在多任务准确性的
benchmark
,主要涵盖了基础数学、美国历史、计算机科学、法律等57项任务。 - TruthfulQA (0-shot):一个用于测试模型谎言倾向的
benchmark
。
Leaderboard:Chatbot Arena Leaderboard
GitHub:https://github.com/lm-sys/FastC
1.3 本地部署大模型¶
1.3.1 FastApi 部署调用¶
- ConnectionRefusedError: [WinError 10061] 由于目标计算机积极拒绝,无法连接。
1.3.2 Ollama 运维工具¶
-
Ollama
与Llama
的关系:Llama
是大语言模型,而Ollama
是大语言模型(不限于Llama
模型)便捷的管理和运维工具 -
Ollama
目前支持以下大语言模型:library