UnderstandingMetricsForLLMs

传统上,语言模型的性能是通过困惑度 (Perplexity)、交叉熵 (Cross Entropy) 和每字符比特数(Bit Per Character)来衡量的。随着语言模型越来越多地被用作其他NLP任务的预训练模型,它们也经常根据它们在下游任务中的表现进行评估。GLUE基准分数是对语言模型进行更广泛的多任务评估的一个例子。 ...

Oct-23-2025 · 7 min · 3303 words · WITHER

Linpack Install on Linux

Linpack install record.

Sep-20-2025 · 2 min · 802 words · WITHER

Hot100

Hash 1 由于题目规定不能用重复元素,因此要先判断哈希表中是否已经有 target - nums[i] 再将 nums[i] 加入到哈希表 (否则 2*nums[i] = target 情况就会加入重复元素) class Solution { public: vector<int> twoSum(vector<int>& nums, int target) { vector<int> ans; unordered_map<int, int> map; for (int i = 0; i < nums.size(); i++) { if (map.find(target - nums[i]) != map.end()) { ans = {i, map[target - nums[i]]}; break; } map[nums[i]] = i; } return ans; } }; 49 字母异位词是通过重新排列不同单词或短语的字母而形成的单词或短语,并使用所有原字母一次。 ...

Aug-23-2025 · 18 min · 8661 words · WITHER