了一句英语:
The quick brown fo jumps over the lazy dog.
「看,大使先生。英语,以及所有的印欧语系,本质上是一种线性的一维编码。它是表音的。为了确保信息在传输中不失真,英语进化出了大量的冗余。」
「为了表达光子这个概念,我们需要六个字母,六个字节。为了构建语法,我们需要the、a、is这些在信息学上几乎为零的噪音词汇。」
「在香农的公式里,英语的平均信息熵大约是每字母1.0到1.5比特。如果算上冗余,它的效率其实很低。它就像是莫尔斯电码,为了准确,牺牲了长度。」
接着,米勒在下面写下了两个汉字:
光子他用笔尖点了点那两个方块:「但中文,中文是个怪物。」
「它不是一维的线,它是二维的图。它是表意文字。每一个汉字,都是一个被高度压缩的信息包。它直接指向意义,跳过了声音的转码。」
「根据最新的语言统计学研究,如果不考虑上下文冗余,单个汉字的平均信息熵高达9.65比特,甚至是11比特以上。」
布希显得有些困惑:「说人话,博士。」
「意思是,在同样的存储空间,或者同样的传输时间内,中文能容纳的信息量是英语的两倍甚至三倍。」
「就像你们在联合国看到的文件,中文文件总是更薄。」
「看这一句。如果用英语描述复杂的拓扑结构,我们可能需要写一段长达三百个单词的段落,用无数个which、that来修饰从句,以确保逻辑严密。」
「但用中文?」
「每一个字都是乾货。没有词尾变化,没有时态後缀,没有复数形式的累赘。它抛弃了所有的语法装饰,只保留了核心语义。」
米勒擡起头,透过镜片看着布希:「大使先生,对於一个需要计算光年、能够处理恒星级能量流动的文明来说,英语太稀薄了。」
「英语就像是我们还在用的老式铜轴电缆,带宽有限。」
「而中文,这种将图形、空间结构和逻辑压缩进一个方块里的语言,在希瓦娜眼里,可能更像是一种高效的无损压缩算法。」
「她选择中文。」
「仅仅是因为,在她看来,这是地球上唯一一种高密度的语言。」
地下室里安静了下来。
作为语言学家,乔治·米勒从香农
…。。本站若有图片广告属于第三方接入,非本站所为,广告内容与本站无关,不代表本站立场,请谨慎阅读。
Copyright © 2020 祭司书院 All Rights Reserved.kk