内存是怎么映射到物理地址空间的?内存是连续分布的吗? - 知乎日报

内存是怎么映射到物理地址空间的?内存是连续分布的吗? - 知乎日报

知乎日报

如果我们将两个 4G 内存插入内存插槽,得到的内存地址空间是 0 到 8G 吗?是不是 0 到 4G 是第一根内存,4 到 8G 是第二根内存呢?实际情况相差甚远,内存在物理地址空间的映射是分散的。一部分原因是 4G 以下有 Memory map IO(mmio)空间和 PCIe 的配置空间,另一个原因是 Interleaving 会打撒内存地址到各个 Channel、DIMM 甚至是 Rank 和 bank 上。今天我们就一起来了解一下 x86 系统的地址空间分布。


物理地址空间


一个典型的物理地址空间是这样的:



其中只有灰色部分是真正的内存,其余都是 MMIO。而内存被分为 High DRAM 和 Low DRAM,如图:



为什么要把内存强行分割成两块呢?因为历史的包袱。最早内存都很小,32 位的地址(4G)空间看起来永远也用不完,低地址被分配给内存用,高地址就自然而然被分配用来给 Memory map IO。既然已经分给它们了,为了兼容以前的驱动,这一块就被固定下来。再有内存就只能从 4G 以上分配了。


Low MMIO 和 High MMIO


Low MMIO 结构如下图:



其中有几块要特别说明一下:


1.Boot Vector 的空间是 BIOS 内容映射的地址,它的大小是可以调节的,为了满足不同大小的 BIOS。


2.Local APIC 是 APIC 中断模式各个内核 local APIC 寄存器的映射地址。APIC 的中断可以参考这篇文章:


老狼:计算机中断体系二:中断处理


3.PCI ECAM 也有叫做 PCIBAR,是 PCIe 配置地址空间的映射地址。它的起始地址可调,台式机 BIOS 一般会把它设置得很高,这样 4G 以下内存会比较大,方便 32 位 Windows 使用。举个例子,如果我们把 PCIe BAR(BEGREG)设为 0x80000000,那么尽管插了 8G DIMM,4G 以下也不会超过 2G 的内存可以使用,而 2 到 8G 的真实内存都被映射到在 4G 地址空间以上了,而这些是 32 位 Windows 使用不了的。所以有的主板运行 32 位操作系统发现可用内存小了一大块就是这个原因。它的大小可以修改,一般可以设为 64MB 和 128MB。PCIe 的详细内容可以参考这篇文章:


老狼:深入 PCI 与 PCIe 之二:软件篇


High MMIO 被 BIOS 保留作为 64 位 mmio 分配之用,例如 PCIe 的 64 位 BAR 等。


Low DRAM 和 High DRAM


4G 以下内存最高地址叫做 BMBOUND,也有叫做 Top of Low Usable DRAM (TOLUD) 。BIOS 也并不是把这些都报告给操作系统,而是要在里面划分出一部分给核显、ME 和 SMM 等功能:


红框中是在 low DRAM 被“偷”的部分

4G 以上的内存最高端叫做 Top of Up Usable DRAM (TOUUD) ,再上面就是 High MMIO 了。


1MB 以下比较特殊,里面全部都是已经被淘汰的传统 BIOS 和 DOS 关心的内容,我们叫它 DOS Space 或者 Legacy Region:



在那里,我们习惯用传统的实模式地址来划分它们的具体内容:


1.0~640KB,传统 DOS 空间。


2.A 段和 B 段,传统 SMM 空间。VGA 的 MMIO 也被映射到这里,可以通过寄存器切换。


3.C 段和 D 段,legacy opROM 映射空间和 EBDA 空间。


4.E 段和 F 段,BIOS 空间的 Lower 和 Upper 映射地址。BIOS 的 rom 内容也会被映射到这里,方便 Legacy BIOS 实模式跳转到保护模式。


内存的 Interleave


从前面可以看出内存在地址空间上被拆分成两块:Low DRAM 和 High DRAM。那么在每块地址空间上分配连续吗?现代内存系统在引入多通道后,为了规避数据的局部性(这也是 Cache 为什么起作用的原因)对多通道性能的影响,BIOS 基本缺省全部开启了 Interleaving,过去美好的 DIMM 0 和 DIMM 1 挨个连续分配的日子一去不复返了。


什么是 Interleaving?简单来说,就是让内存交错起来,如下面的动图


来自 wikipedia, 参考资料 1

这是一个 bank 层级的模 4 的 interleaving。在桌面电脑上,常见的还有 Channel 级的、DIMM 级的和 Rank 级的。Channel/DIMM/Rank/bank 这些概念可以参考这两篇文章:


老狼:内存系列一:快速读懂内存条标签老狼:内存系列二:深入理解硬件原理


服务器上 Interleaving 更是不可或缺,它的粒度更细,可以达到数十 bytes 层级的 interleave,它和内存的其他特性,如类似磁盘阵列 RAID 的内存 spare, mirror 特性,构成了复杂异常的内存映射系统。在 BIOS 里面,台式机 / 笔记本内存映射相对简单,只有一个大表和数十个寄存器;而在服务器 BIOS 中,有数个相互关联的大表和寄存器阵列来解码(decode)内存的请求,代码的硬件逻辑也是相当复杂。关于它,我会有一篇专栏文章讨论地址译码和地址反向解码,详细内容那里再说,这里只需要知道,物理内存分布在各个 DIMM 上就够了。


物理地址到内存单元的反推


BIOS 实际上一手导演的内存的分配,它当然可以从任何物理地址反推回内存的单元地址。我们可以用下面一组数据来唯一确定某个内存单元:



Channel #;DIMM #; Rank #;Bank #;Row #;Column #


在内存分配表缺失的情况下,BIOS 甚至可以通过它填过的寄存器重建这个映射表。但实际上 BIOS 并不希望一般用户知道这些信息,因为有安全性问题。


暴露内存信息容易招来内存侧信道攻击(Side Channel),比较有名的有 Row hammer 攻击。简单的来说它是通过反复写某个内存单元,借助内存的特性,希望影响相邻 Row/Column 的内容。详细内容可以参考这里:


老狼:内存不刷新会怎样?内存的物理攻击和旁路攻击


有些情况确实需要知道这些信息,就是内存出错的时候。和大家想象的不同,内存是会出错的。尤其云服务器中内存的出错是十分频繁的。出错起来也千奇百怪,开始可能是偶尔的随机错误,经过 ECC 等校正后,就再也不会复现;而有时是某个 Bit 总是出错,进而慢慢的整个 row、column 或者相邻的 cell 开始出错,从可以纠正的错误变成不可修正的错误,导致服务器必须停机。这时候就必须知道哪个内存坏了,进而换掉它。BIOS 的报错是通过 WHEA:


老狼:WHEA 原理和架构


报告给操作系统,但这个信息里面只有物理地址,如何才能知道是哪个内存单元坏了呢?在 Linux 上面可以通过 edca(参考资料 4),有编程经验的同学可以通过 edca 的程序接口(参考资料 3),可以得到更加丰富的信息。


如何关掉 Interleaving


对内存有特殊需求的朋友,如果希望内存连续,可以在 BIOS 里面关闭所有的Interleaving 来达成这个目标:



注意是所有的。之后可以通过 SMBIOS 来看到内存分布信息(dmidecode)。


结论


BIOS 作为内存的大管家,也负责内存的分配和映射 memory map。它会把这些信息通过 E820, GetMemoryMap 函数和 SMBIOS 传递给操作系统。操作系统在此基础上再建立页表,产生虚拟地址。


另一篇相关的文章:


老狼:神秘消失的内存去哪了?


BIOS 培训云课堂


卓易云课堂


参考资料:


[1]: https://en.wikipedia.org/wiki/Interleaved_memory


[2]: https://www.semanticscholar.org/topic/Row-hammer/701344


[3]: https://01.org/linuxgraphics/gfx-docs/drm/driver-api/edac.html


[4]: http://fibrevillage.com/sysadmin/243-edac-error-detection-and-correction



查看知乎讨论








本文章抓取自RSS,版权归源站点所有。

查看原文:内存是怎么映射到物理地址空间的?内存是连续分布的吗? - 知乎日报


[点击] 加入书友群 1.5TB电子书资源 @ideahub_ml

[点击] 全网福利资源|薅羊毛·省钱中心 @rss_news_list


[点击] 路透中文 @lutouzhongwen_rss

[点击] 纽约时报 @niuyueshibao_rss

[点击] 美国之音 @meiguozhiyin_rss

[点击] 知乎日报 @zhihuribao_rss

[点击] BBC中文 @bbczhongwen_rss

[点击] FT中文网 @ftzhongwen_rss

[点击] 双语新闻 @shuangyunews_rss


[点击] 法国 国际广播电台 @rfi_rss

[点击] 德国 德国之声 @dw_rss

[点击] 澳大利亚 广播公司 @abc_rss

[点击] 俄罗斯 卫星通讯社 @ru_rss

[点击] 新加坡 联合早报 @sg_rss

[点击] 韩国 中央日报 @korea_rss

[点击] 日本 日经中文网 @jp_rss

[点击] 台湾香港 当地日报 @ttww_rss


[点击] 跳转到商家页面

[点击] 跳转到商家页面

Report Page