Skip to content

1 LLM测评以及本地大模型部署

参考:

1.1 LLM和LVM

1.1.1 LLM

1.1.2 VLM

1.2 LLM模型测评

最近初步了解大模型时,经常被各种 LLMs 模型搞的眼花缭乱,想要挑选一个性能还不错在本地部署大模型,所以这里收集了一些被广泛认可且目前还比较活跃的LLMs评测榜单,用于跟踪最新的模型和效果。

1.2.1 LMSYS

image-20240910213331685

简介LMSYS 推出的 Chatbot Arena 是一个以众包方式进行匿名的LLMs 基准平台,主要包含以下3个基准:

  • Chatbot Arena:一个大语言模型基准平台,目前已有 90K+ 用户的投票数据,采用 Elo 评级方法进行计算得到的结果。
  • MT-Bench:一个多轮问题对话 benchmark,并且使用 GPT-4 的结果作为标准进行评分。
  • MMLU (5-shot):一个常用于衡量模型在多任务准确性的benchmark,主要涵盖了基础数学、美国历史、计算机科学、法律等57项任务。

LeaderboardChatbot Arena Leaderboard

GitHub:https://github.com/lm-sys/FastC

1.2.2 Open LLM Leaderboard

简介:由Hugging Face 发布,**主要针对英文**的评测榜单,旨在跟踪、排名和评估开源的LLMs

  • AI2 Reasoning Challenge (25-shot):主要涵盖了一些小学科学问题。
  • HellaSwag (10-shot):常识推理数据集
  • MMLU (5-shot):一个常用于衡量模型在多任务准确性的 benchmark,主要涵盖了基础数学、美国历史、计算机科学、法律等57项任务。
  • TruthfulQA (0-shot):一个用于测试模型谎言倾向的benchmark

LeaderboardChatbot Arena Leaderboard

GitHub:https://github.com/lm-sys/FastC

1.3 本地部署大模型

1.3.1 FastApi 部署调用

  • ConnectionRefusedError: [WinError 10061] 由于目标计算机积极拒绝,无法连接。

1.3.2 Ollama 运维工具

  • OllamaLlama的关系:Llama是大语言模型,而Ollama是大语言模型(不限于Llama模型)便捷的管理和运维工具

  • Ollama目前支持以下大语言模型:library

  • Qwen-7B

  • 部署方法

1.3.3 本地 LLM & VLM 性能测评方案