Выбор единицы индексирования (документа). Предварительная обработка документов, разбиение на слова, выделение терминов, нормализация, стоп-словарь. Характерные особенности текстов, написанных на естественных языках: омонимия, компаунды, морфология. Основные подходы к морфологической обработке.