А пробелы как расставляли? Произвольно?
А новую строку? И вообще, знаки препинания?
Похоже, нужно 128 знаков (с заглавными), т.е. берем кодировку 866 и 128-ричную систему записи числа.
Имхо, смысла сначала поубавится. Зато появятся другие соображения.
После точки идет пробел, значит в первом миллионе знаков ищем устойчивое сочетание из двух знаков (записи в 128-ричной системе)