颂哈吉-施特拉森算法

颂哈吉-施特拉森算法（英语：Schönhage–Strassen algorithm）是渐近快速的大整数乘法算法。是由阿诺德·颂哈吉（英语：Arnold Schönhage）和沃尔克·施特拉森在1971年发明^[1]。若针对二个n位元的整数，其运行的位元复杂度（英语：bit complexity），若以大O符号表示，是 $O(n\cdot \log n\cdot \log \log n)$ 。算法使用在有2ⁿ+1个元素的环上的迭代快速傅里叶变换，这是一种特别的数论转换。

颂哈吉-施特拉森算法是1971年至2007年之间，渐近最快的乘法算法，2007年时有一个新的乘法算法Fürer算法（英语：Fürer's algorithm），其渐近复杂度较低^[2]，不过Fürer算法只有在大到天文数字的程度时，其速度才会比颂哈吉-施特拉森算法快，实务上不会使用Fürer算法（参考银河式算法）。

在实务上，当数字大于2^2¹⁵至2^2¹⁷（十进制下的10,000到40,000位数）时，颂哈吉-施特拉森算法的速度会比较早期的卡拉楚巴算法和图姆-库克算法要快^[3]^[4]^[5]。GNU多重精度运算库用这个算法计算至少1728至7808个64位元字节的数值（十进制下的33,000至150,000位数），依硬件架构而定^[6]，有一个用Java实现的颂哈吉-施特拉森算法，可以计算十进制超过74,000位数^[7]。

颂哈吉-施特拉森算法的应用包括数学哲学（例如互联网梅森素数大搜索以及计算圆周率近似值），实务的应用包括克罗内克代入（英语：Kronecker substitution），其中将整系数多项式的乘法有效的简化为大数的乘法，GMP-ECM中用此算法来计算Lenstra椭圆曲线分解（英语：Lenstra elliptic curve factorization）^[8]。

细节

此段会说明颂哈吉-施特拉森算法实现的细节，主要是依Crandall和Pomerance在《Prime Numbers: A Computational Perspective》书中的简介^[9]。其中说明的和颂哈吉原始的方法有些差异：其中用离散加权转换（discrete weighted transform）来快速计算负循环卷积（英语：negacyclic convolution）。另一个细节资讯的来源是高德纳的《计算机程序设计艺术》^[10]。此章节从建立blocks开始，最后会一步一步的说明算法。

卷积

假设要将B基底的123和456用直式乘法相乘，B够大，因此计算中不会有进位的情形。结果会是：

		1	2	3
	×	4	5	6

		6	12	18
	5	10	15
4	8	12

4	13	28	27	18

数列(4, 13, 28, 27, 18)称为二个原始数列(1,2,3)和(4,5,6)的线性卷积（linear convolution）或非循环卷积（acyclic convolution）。只要有二个数列的线性卷积，要算出原数字在十进制以下的乘积就很简单了：只需要处理进位（例如，最右栏的数字，只保留8，将1进到上一栏的27）。此例中可以得到正确的乘积56088。

有另外几种也很有用的卷积。假设输入数列有n个元素（假设3个），线性卷积会有n+n−1个元素，若将最右边的n个元素加上最左边的 n−1个元素，可以产生循环卷积（cyclic convolution）：

	28	27	18
+		4	13

	28	31	31

若在循环卷积的结果再考虑其进位，所得结果等效于原来两数字的乘积mod Bⁿ − 1。在此例中，10³ − 1 = 999，将(28, 31, 31)计算其进位后得到 3141，而3141 ≡ 56088 (mod 999)。

相对的，若将最右边的n个元素减去最左边的n−1个元素，会产生负循环卷积（英语：negacyclic convolution）（negacyclic convolution）：

	28	27	18
−		4	13

	28	23	5

若在负循环卷积的结果再考虑其进位，所得结果等效于原来两数字的乘积mod Bⁿ + 1。此例中，10³ + 1 = 1001。将(28, 23, 5)计算进位后得到3035，而3035 ≡ 56088 (mod 1001)。负循环卷积可能会有负数，可以用借位的方式消除其负数。

卷积定理

颂哈吉-施特拉森算法和其他以快速傅立叶变换为基础的乘法算法一样，在本质上都是以卷积定理为基础，可以快速的计算二个数列的循环卷积，卷积定理如下：

两个向量的循环卷积可以将这两个向量求其离散傅里叶变换（DFT），将所得向量依元素相乘，将所得结果再进行反离散傅里叶变换（IDFT）。

若依符号表示，可表示如下：

CyclicConvolution(X, Y) = IDFT(DFT(X) · DFT(Y))

若用快速傅里叶变换（FFT）来计算DFT及IDFT，再用递回的方式处理乘法算法，来将DFT(X)和DFT(Y)相乘，就可以得到计算循环卷积的快速算法。

在此算法中，若计算负循环卷积会更有效：使用修改后的卷积定理版本（参考数论转换）也可以有相同效果。假设向量X和Y的长度是n，而a是2n阶的单位根（意思是a²ⁿ = 1，其他a的较小幂次都不等于1），可以定义第三个向量A，称为加权向量：

A = (a^j), 0 ≤ j < n

A⁻¹ = (a^−j), 0 ≤ j < n

负循环卷积可以表示为下式：

NegacyclicConvolution(X, Y) = A⁻¹ · IDFT(DFT(A · X) · DFT(A · Y))

这和循环卷积的公式类似，只是输入要先乘以A,输出要乘以A⁻¹。

代数环的选用

离散傅里叶变换是抽象的运算，因此可以在任意环的代数结构下运作。一般而言是在复数下进行，但实际上为了要有准确的结果，要处理复数运算到足够的精度，这种乘法不但慢，而且容易有错误。因此会用数论转换的方式进行，是在整数模N（N为特定整数）的底下进行。

就像在复数平面上，每一阶都可以找到原根一样，给定任何的阶数n，可以选择适当的N，使得b是在整数模N的系统下，n阶的原根（bⁿ ≡ 1 (mod N)，b其他较小的次幂，都不会是1 mod N）。

此算法会花很多时间演算小数字的次幂，若用一个天真的方式来处理算法，这会出现许多次。

在FFT算法中，原根b会一直的计算幂次，平方，并且和其他的数相乘。
在计算原根a的次方，以计算加权向量A时，以及将A或A⁻¹和其他向量相乘的时候。
在进行向量项对项的相乘时。

颂哈吉-施特拉森算法的关键是选择模数N等于2ⁿ + 1，其中的n是要转换件数P=2^p的倍数。若标准系统，用二进制的形式表示大数值，有许多的好处：

所有的数字计算modulo 2ⁿ + 1，都可以只用移位和加法快速求得（这会在下一节解释。）
此转换会用到的所有原根都可以写成2^k，因此原根和其他数字的相乘只需要用到移位，原根的平方和幂次都只是在其指数上的变化。
转换向量的项对项递回乘法可以用逆循环卷积来计算，这比卷积要快，而且其结果会自动计算mod 2ⁿ + 1。

为了让递回乘法比较方便，会将颂哈吉-施特拉森算法定位为二个数字的乘积mod 2ⁿ + 1（n为某整数），而不是一般的乘法。这不会失去算法的一般性，因为可以选择够大的n，使得乘积mod 2ⁿ + 1就是乘积本身。

移位的优化

在此算法中，有许多和二个次幂相乘或相除（包括所有的原根）的情形是可以用较小数字的移位和相加达成。原因是因为观察到以下的算式：

(2ⁿ)^k ≡ (−1)^k mod (2ⁿ + 1)

其中2ⁿ进制下的k位数，若用位值计数法表示，可以写成(d_k−1,...,d₁,d₀)，代表数值 $\scriptstyle \sum _{i=0}^{k-1}d_{i}\cdot (2^{n})^{i}$ ，针对每一个d_i可得0 ≤ d_i < 2ⁿ。

因此可以简化表示为二进制数字进行mod $2 n + 1$ 的计数：取最右边（最小位）的n位元，减去较高位的n位元，再加上再高位的n位元，一直计算到所有位元都已处理为止。若所得的数超过0到2ⁿ的范围，可以加或减模数 $2 n + 1$ 的倍数以进行正规化。例如，若n=3（因此模数是2³+1 = 9），要化简的数字是656，可以得到：

656 = 1010010000₂ ≡ 000₂ − 010₂ + 010₂ − 1₂ = 0 − 2 + 2 − 1 = −1 ≡ 8 (mod 2³ + 1).

甚至，针对很多位元的移位，还有简化的方式。假设数字A介于0到2ⁿ之间，希望乘以2^k。将k除以n可得到k = qn + r，其中r < n。因此可得：

A(2^k) = A(2^{qn + r}) = A[(2ⁿ)^q(2^r)] ≡ (−1)^q 左位移（英语：Shift_Left）(A, r) (mod 2ⁿ + 1).

因为A≤ 2ⁿ，且r < n。左移r位元后最多有2n−1位元，因此只需要一次位移和减法（之后可能要正规化）。

最终，若要除以2^k，可将此段的第一个式子平方，可得：

2²ⁿ ≡ 1 (mod 2ⁿ + 1)

因此

A/2^k = A(2^−k) ≡ A(2^{2n − k}) = Shift_Left(A, 2n − k) (mod 2ⁿ + 1).

算法

此算法有分割、评估（前向FFT）、各项相乘、内插（反FFT）以及合并的阶段，类似Karatsuba算法和Toom-Cook算法。

假设输入数字是x和y，以及整数N，以下算法可以计算xy mod 2^N + 1的结果。假设N够大，使得乘积取模数后的结果仍是乘积本身。

将输入的数字分割为向量X和Y，各有2^k个元素，其中2^k是N的因素（例如将12345678 → (12, 34, 56, 78)）。
为了运算方便，需要用较小的N以进行递回乘法。因此选择n是大于2N/2^k + k，而且可被2^k整除的最小数字。
利用负循环卷积计算XY mod 2ⁿ + 1：
1. 将X和Y和加权向量A相乘，作法是使用移位（将第j项左移jn/2^k）
2. 用数论FFT计算X和Y的DFT（将所有乘法用移位表示：针对第2^k次原根，使用2^{2n/2^k}）。
3. 递回的应用此算法，将转换后的X和Y对应项相乘。
4. 计算所得向量的IDFT，得到结果向量C（用移位代替乘法），这对应内插阶段。
5. 将结果向量C和A⁻¹相乘，用移位来进行。.
6. 调整符号：结果的一些项可能是负的。可以计算C的第j项的最大可能正值 $(j + 1)2 2 N /2 k$ ，若有超过，再减去模数2ⁿ + 1。
最后，处理进位mod 2^N + 1，得到最终的结果。

输入数字最佳的分割组数和 ${\sqrt {N}}$ 成比例，其中N是输入数字的位元数，此设法会让执行时间的复杂度为O(N log N log log N),^[1]^[9]，因此需依规则设定参数k。实务上，会依输入数字大小以及算法架构而定，一般会介于4到16之间^[8]。

在步骤2，已观察到以下的现象：

输入向量的每一项最多只有n/2^k个位元。
二个输入向量项的乘积最多有2n/2^k个位元。
卷积的每一个元素是最多2^k个乘积的和，因此不会超过 2n/2^k + k个位元。
n一定要可被2^k整除，以确保在步骤1的递回呼叫中2^k 整除N"的条件会成立。

参考资料

^ ^1.0 ^1.1 A. Schönhage and V. Strassen, "Schnelle Multiplikation großer Zahlen （页面存档备份，存于互联网档案馆）", Computing 7 (1971), pp. 281–292.
^ Martin Fürer, "Faster integer multiplication 互联网档案馆的存档，存档日期2013-04-25.", STOC 2007 Proceedings, pp. 57–66.
^ Van Meter, Rodney; Itoh, Kohei M. Fast Quantum Modular Exponentiation. Physical Review. A. 2005, 71 (5): 052320. S2CID 14983569. arXiv:quant-ph/0408006 . doi:10.1103/PhysRevA.71.052320.
^ Overview of Magma V2.9 Features, arithmetic section 互联网档案馆的存档，存档日期2006-08-20.: Discusses practical crossover points between various algorithms.
^ Luis Carlos Coronado García, "Can Schönhage multiplication speed up the RSA encryption or decryption? Archived", University of Technology, Darmstadt (2005)
^ MUL_FFT_THRESHOLD. GMP developers' corner. [3 November 2011]. （原始内容存档于24 November 2010）.
^ An improved BigInteger class which uses efficient algorithms, including Schönhage–Strassen. Oracle. [2014-01-10].
^ ^8.0 ^8.1 Pierrick Gaudry, Alexander Kruppa, and Paul Zimmermann. A GMP-based Implementation of Schönhage–Strassen’s Large Integer Multiplication Algorithm Archived. Proceedings of the 2007 International Symposium on Symbolic and Algebraic Computation, pp.167–174.
^ ^9.0 ^9.1 R. Crandall & C. Pomerance. Prime Numbers – A Computational Perspective. Second Edition, Springer, 2005. Section 9.5.6: Schönhage method, p. 502. ISBN 0-387-94777-9
^ Donald E. Knuth, The Art of Computer Programming（计算机程序设计艺术）, Volume 2: Seminumerical Algorithms (3rd Edition), 1997. Addison-Wesley Professional, ISBN 0-201-89684-2. Section 4.3.3.C: Discrete Fourier transforms, pg.305.

[schönhage-1] 1.0 ^1.1 A. Schönhage and V. Strassen, "Schnelle Multiplikation großer Zahlen （页面存档备份，存于互联网档案馆）", Computing 7 (1971), pp. 281–292.

[2] Martin Fürer, "Faster integer multiplication 互联网档案馆的存档，存档日期2013-04-25.", STOC 2007 Proceedings, pp. 57–66.

[3] Van Meter, Rodney; Itoh, Kohei M. Fast Quantum Modular Exponentiation. Physical Review. A. 2005, 71 (5): 052320. S2CID 14983569. arXiv:quant-ph/0408006 . doi:10.1103/PhysRevA.71.052320.

[4] Overview of Magma V2.9 Features, arithmetic section 互联网档案馆的存档，存档日期2006-08-20.: Discusses practical crossover points between various algorithms.

[5] Luis Carlos Coronado García, "Can Schönhage multiplication speed up the RSA encryption or decryption? Archived", University of Technology, Darmstadt (2005)

[6] MUL_FFT_THRESHOLD. GMP developers' corner. [3 November 2011]. （原始内容存档于24 November 2010）.

[7] An improved BigInteger class which uses efficient algorithms, including Schönhage–Strassen. Oracle. [2014-01-10].

[Gaudry-8] 8.0 ^8.1 Pierrick Gaudry, Alexander Kruppa, and Paul Zimmermann. A GMP-based Implementation of Schönhage–Strassen’s Large Integer Multiplication Algorithm Archived. Proceedings of the 2007 International Symposium on Symbolic and Algebraic Computation, pp.167–174.

[crandall-9] 9.0 ^9.1 R. Crandall & C. Pomerance. Prime Numbers – A Computational Perspective. Second Edition, Springer, 2005. Section 9.5.6: Schönhage method, p. 502. ISBN 0-387-94777-9

[10] Donald E. Knuth, The Art of Computer Programming（计算机程序设计艺术）, Volume 2: Seminumerical Algorithms (3rd Edition), 1997. Addison-Wesley Professional, ISBN 0-201-89684-2. Section 4.3.3.C: Discrete Fourier transforms, pg.305.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

查论编数论算法
素数测试	AKS APR（英语：Adleman–Pomerance–Rumely primality test） Baillie–PSW（英语：Baillie–PSW primality test）椭圆曲线（英语：Elliptic curve primality） Pocklington（英语：Pocklington primality test）费马卢卡斯（英语：Lucas primality test）卢卡斯-莱默 Lucas–Lehmer–Riesel（英语：Lucas–Lehmer–Riesel test）普罗斯 Pépin（英语：Pépin's test）二次Frobenius（英语：Quadratic Frobenius test） Solovay–Strassen（英语：Solovay–Strassen primality test）米勒-拉宾
质数生成（英语：Generating primes）	阿特金筛法（英语：Sieve of Atkin）埃拉托斯特尼筛法 Pritchard筛法（英语：Sieve of Pritchard） Sundaram筛法（英语：Sieve of Sundaram）轮式因数分解法（英语：Wheel factorization）
整数分解	连分数分解 (CFRAC)（英语：Continued fraction factorization） Dixon's（英语：Dixon's factorization method） Lenstra椭圆曲线 (ECM)（英语：Lenstra elliptic-curve factorization）欧拉因式分解法波拉德ρ算法（英语：Pollard's rho algorithm） p − 1（英语：Pollard's p − 1 algorithm） p + 1（英语：Williams's p + 1 algorithm）二次筛选法普通数域筛选法特殊数域筛选法 (SNFS)（英语：Special number field sieve）有理筛选法费马因式分解法（英语：Fermat's factorization method） Shanks二次形式（英语：Shanks's square forms factorization）试除法秀尔算法
乘法算法	古埃及乘算（英语：Ancient Egyptian multiplication）长乘法卡拉楚巴算法图姆-库克算法颂哈吉-施特拉森算法富尔算法（英语：Fürer's algorithm）
欧几里德除法除法算法	二进制（英语：Binary division）倍块法（英语：Chunking (division)） Fourier（英语：Fourier division） Goldschmidt（英语：Goldschmidt division） Newton-Raphson（英语：Newton–Raphson division）长除法短除法 SRT
离散对数	大步小步算法波拉德ρ算法 Pollard kangaroo（英语：Pollard's kangaroo algorithm） Pohlig–Hellman（英语：Pohlig–Hellman algorithm） Index calculus（英语：Index calculus algorithm） Function field sieve（英语：Function field sieve）
最大公因数	二进制最大公因数算法（英语：Binary GCD algorithm）辗转相除法扩展欧几里得算法 Lehmer's（英语：Lehmer's GCD algorithm）
二次剩余	Cipolla（英语：Cipolla's algorithm） Pocklington's（英语：Pocklington's algorithm） Tonelli–Shanks（英语：Tonelli–Shanks algorithm） Berlekamp（英语：Berlekamp–Rabin algorithm） Kunerth（英语：Kunerth's algorithm）
其他算法	Chakravala（英语：Chakravala method） Cornacchia（英语：Cornacchia's algorithm）整数关系（英语：Integer relation algorithm）（LLL（英语：Lenstra–Lenstra–Lovász lattice basis reduction algorithm）；KZ（英语：Korkine–Zolotarev lattice basis reduction algorithm））平方求幂整数平方根模幂运算蒙哥马利算法 Schoof（英语：Schoof's algorithm）特拉亨伯格系统（英语：Trachtenberg system）
斜体表示该算法只适用于特殊形式的数字