
Термины, связанные с обработкой информации в вебе:
🔹Single page website / one page website — сайт-одностраничник — сайт, который состоит из одной страницы (в редких исключениях может быть еще несколько). Его цель — объяснить преимущества продукта / услуги на одной странице. Примеры 👉 https://www.awwwards.com/websites/single-page
🔹SPA (Single Page Application) — одностраничное приложение — веб-приложение или веб-сайт, использующий единственный HTML-документ как оболочку для всех веб-страниц и организующий взаимодействие с пользователем через динамически подгружаемые HTML, CSS, JavaScript, обычно посредством AJAX без перезагрузки страницы. Раньше поисковым системам было сложно обработать контент таких сайтов.
🔹Parsing — парсинг — процесс извлечения и обработки данных. В программировании может относится к строке / куску текста / коду страницы. Самый простой пример использования в русском языке «parse html» — «распарсить html» — обработать html-код и извлечь из него нужные данные, например текст. Не путайте с термином scraping, у которого немного другой смысл.
🔹Scraping — в рунете тоже переводится как парсинг — скачивание / копирование данных с веб-сайтов и сохранение в свою базу данных. Пример использования «competitor prices scraping» — «скачивание цен с сайта конкурента».
🔹Sha-bang / hashbang / pound-bang / hash-pling — шебанг — последовательность из двух символов: #! (решётки и восклицательного знака). Поисковая система Google предложила заменять # в URL SPA (одностраничных приложений) на #! чтобы указывать, что страницы имеют HTML копию, которая может быть просканирована пауком поисковой системы;
🔹Normalization — нормализация — позволяет убрать из исходного текста грамматическую информацию (падежи, числа, глагольные виды и времена, залоги причастий, род и так далее), оставляя смысловую составляющую.
🔹Stemming — стемминг — отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Стемминг применяется в поисковых системах для расширения поискового запроса пользователя, является частью процесса нормализации текста. Пример работы стеммера: куплю -> купл, автомобильную -> автомобильн, шину -> шин.
🔹Lemmatization — лемматизация — процесс приведения словоформы к лемме — её нормальной (словарной) форме (именительный падеж, единственное число). Используется вместе со стеммингом в процессе нормализации текста.
👌Проще всего переводить термины, используя справку Google. В URL статьи справки можно добавить параметр ?hl= , который отвечает за язык статьи. hl=ru — для русскоязычной версии, hl=en — для англоязычной.