절댓값의 기원
절댓값은 처음부터 absolute value라고 불리지 않았습니다. 절댓값의 개념으로 사용되었던 최초의 단어는
초기 절댓값
위에서도 언급했듯이, 절댓값은 숫자의 크기를 나타내기 위한 것이었습니다. 그 크기의 기준점은 숫자 $0$이었습니다. 즉, $0$과 그 숫자 사이의 거리였죠. 그래서, $x$가 실수일 때는
$$|x|=\left\{{ \begin{array}{rl}x, & {\text{if }}x \geq 0\\-x, & {\text{if }}x < 0 \end{array} } \right.$$
로, 또한 실수 $a$, $b$에 대해
$$ |a+bi| = \sqrt{a^2 + b^2} $$
으로 정의가 됩니다.
벡터에서도 피타고라스의 정리를 일반화해서 실수 $a_1$, $a_2$, $\cdots$, $a_n$에 대해
$$| (a_1, a_2, \cdots, a_n) | = \sqrt{(a_1)^2 + (a_2)^2 + \cdots + (a_n)^2} = \sqrt{ \sum_{k=1}^n (a_k)^2 }$$
으로 정의합니다. 벡터에서는 절댓값을 특별히 $\Vert \mathbf x \Vert$와 같이 두 줄 세로선으로 나타내기도 합니다. (복소벡터에서도 거리에 해당되는 정의가 있지만, 이 글 전체에서 복소수값을 가지는 것은 복소평면을 빼고는 함수든 벡터든 제외합니다.)
$|x|$가 원점과 수 사이의 거리 개념이었기 때문에 자연스럽게 두 점 사이의 거리를 절댓값으로 표현할 수 있습니다. 수직선의 두 점이든, 복소평면의 두 점이든, 공간상의 두 점이든 두 점 사이의 거리는 $|x-y|$로 표현이 가능해지게 되었죠. $n$차원 공간의 두 점 $\mathbf x = (a_k)_{1 \leq k \leq n}$, $\mathbf y = (b_k)_{1 \leq k \leq n}$ 사이의 거리를 예로 들면 두 점 사이의 거리는 다음과 같습니다.
$$ \vert \mathbf x - \mathbf y \vert = \sqrt{ \sum_{k=1}^n (a_k -b_k)^2}$$
절댓값의 활용
절댓값 개념의 확장은 벡터공간의 발전과 밀접한 관계가 있습니다. 벡터 공간의 발전을 여기서 설명하면 좋겠지만, 그 내용이 너무 방대하므로 여기서는 절댓값에 직접 관계되는 것만 다룹니다.
최소제곱법 (또는 최소자승법)
최소제곱법은 1801년 잠시 관측됐다 사라진 왜행성 세레스(Ceres)를 찾는 문제에 가우스가 도전하여, 단지 이 문제 하나를 풀기 위해 설계한 툴입니다. 새로운 행성의 발견은 당시 중요한 문제였는데, 24살이었던 새파랗게 젊은 가우스는 경쟁자인 당시 대가들보다 먼저 그 해 말에 세레스의 위치를 예측했고, 가우스가 예측한 장소에서 천문학자들은 실제로 세레스를 다시 발견할 수 있었습니다. 가우스의 문제풀이방식은 다른 사람들과 크게 달랐는데, 다른 사람들이 케플러법칙을 적절히 활용하여 미분방정식을 풀어 궤적을 찾으려 했던 반면, 가우스는 미분방정식은 이용하지 않고 관측결과를 먼저 적용하여 타원궤도를 찾았습니다.
가우스가 사용했던 최소제곱법이란 자료 $(x_k, y_k)_{1 \leq k \leq n}$이 주어졌을 때 다음 식의 값을 최소가 되게 하는 함수 $f(x)$를 찾는 것입니다:
$$ \sum_{k=1}^n (y_k - f(x_k))^2 $$
절댓값의 정의를 위 식에 적용해서 살펴보면 최소제곱법이란 관측결과 $(x_k, y_k)_{1 \leq k \leq n}$에 가장 가까운 결과 $(x_k, f(x_k))_{1 \leq k \leq n}$를 만드는 함수 $f$를 찾는 문제라고 해석해도 됩니다. 이것은 계산량이 많기 때문에 $f$는 대체로 일차나 이차함수를 설정하고 풀게 되며, $f$가 일차인 경우는 행렬을 써서 문제를 빨리 해결할 수 있습니다. 그래서, 요즘에는 머신러닝에 쓰이기도 하죠.
분산(과 표준편차)
분산은 1821, 1823, 1826년 3회에 걸쳐 가우스가 펴낸 에세이에 mean error라는 이름으로 등장합니다. 후에 영국의 통계학자인 Ronald Fisher는 1918년 그의 논문
앞서 정의한 거리와 비슷한 점이 보이시나요? $n$으로 나눈 것을 제외하면 분산은 두 점 $(x_k)_{1 \leq k \leq n}$과 $(\mu)_{1 \leq k \leq n}$ 사이의 거리의 제곱을 나타내며, $n$으로 나눈 것도 여러 가지 입장에서 필요하다는 것을 알 수 있습니다. 확률개념이 더 들어가면 더더욱 두 점 사이의 거리와 비슷한 식이 됩니다. 표준편차(standard deviation)라는 이름은 1893년 Karl Pearson이 강의시간에 root mean square error를 줄여서 지은 이름입니다. 표준편차를 그리스 소문자 시그마 $\sigma$로 쓰기 시작한 것도 비슷한 시기입니다.
힐버트 공간과 $L^p$ 공간
1800년 말에서 1900년 초, 수학자들은 함수들로 만들어진 대수적 체계를 다듬어서 함수들도 벡터처럼 다룰 수 있도록 셋업을 합니다. 그리고, 위 두 예에서처럼 거리에 대한 개념은 서서히 일반화가 되어가는 과정에 있었습니다. 그간의 수학자들의 노력 위에서 힐버트와 슈미트는 1908년 구간 $[a,b]$에서 적분가능한 두 함수 $f$, $g$에 대해 다음과 같은 내적을 정의합니다.
$$ \langle f, g \rangle = \int_a^b {f(x)g(x) \mathrm d x} $$
그 결과, 유클리드 공간에서 성립하던 많은 결과가 함수공간에서도 성립함을 알게 됩니다. 당연히, 여기서 함수 $f$의 크기는 다음과 같이 정의되었죠.
$$ \Vert f \Vert_2 = \sqrt{ \int_a^b |f(x)|^2 \mathrm d x }$$
대상은 일반화 되었지만 그 와중에도 제곱이 정말 끈질기게 붙어왔네요.
1910년 리스(Frigyes Riesz)는 거리의 정의에서 사용되던 제곱도 뜯어내고 다음과 같은 방식으로 함수의 크기를 정의합니다.
$$ \Vert f \Vert_p = \left( \int_a^b |f(x)|^p \mathrm d x \right) ^{1/p} $$
이 정의는 $p=2$일 때 힐버트 공간과 같아집니다. 이 거리를 기본으로 수학자들이 연구해 온 공간을 $L^p$ 공간이라 합니다.