План

Машинная подготовка данных и прототип

1) Проводим анализ деревьев каталогов крупных интернет-сервисов, агрегирующих блага: авито, яндекс каталог, яндекс маркет, озон, 2gis, купонные сервисы, проекты с отзывами. Получаем длинный список, объединяющий категории со всех сервисов. Обрабатываем его. Если блага в некоторых категориях на разных сервисах имеют один и тот же смысл, но называются по-разному, мы вводим связь «синоним». Если на одном сервисе есть более детализированная категория, чем на другом, то мы вводим отношение «целое-часть» или «общее-частное».

2) Строим первичную грубую онтологию, в которую встраиваются каталоги с конкретных сервисов. В результате для каждой категории каждого сервиса получим список её синонимов с других сервисов, а так же список связанных категорий. Для каждого сервиса и категории в нём нам известна базовая ссылка.

3) Запускаем робота (поискового паука), который обходит все базовые ссылки, парсит страницы, создаёт индекс. Но не простой, а с мета информацией о том, какого типа ответ он содержит и к какой онтологии относится.

4) После подготовки этих данных мы можем сделать сделать первый шаг от полнотекстового поисковика к информационной системе будущего. Ось онтологии у нас есть, её построить проще всего. Вместо оси вопросов будут полученные категории, а вместо оси ответов — сервисы. Содержимое узлов — проиндексированные страницы.

5) Алгоритм:

  • пользователь вводит запрос
  • поисковик классифицирует его в онтологии
  • происходит полнотекстовый поиск по категориям в соответствующей онтологии
  • выдаётся ответ в формате сервис: список ссылок, полученных в данной категории на данном сервисе

В итоге при вводе запроса мы получим ссылки на страницы проектов, которые разными способами отвечают на этот вопрос. Мы получим и гео-данные из 2gis, и отзывы, и товары новые с маркета, и товары б/у с авито. Страница ответа на запрос будет выглядеть не как полотно сайтов, а более структурировано.

Пример. Запрос «французский маникюр». Ответ:

  • 2gis: карта с салонами красоты, которые делают французский маникюр
  • купонатор: объявления о купонах на маникюр от салонов красоты
  • авито: объявления от частных мастеров
  • яндекс.маркет, ozon, aliexpress: наборы

Создание структуры

Полученную на предыдущем шаге грубую онтологию нужно структурировать, уточнить, заполнить пробелы, описать связи. Для этого нужна работа людей: специалистов, аналитиков или простых людей. Это зависит от того, о какой предметной области речь. Так же специалисты должны представить, как лучше выводить результаты поиска именно для своей онтологии. Следующий шаг — заполнение узлов, т.е. описание параметров в них. Для этого тоже можно построить модель данных и интерфейс. Я не углубляюсь в такие технические подробности. Замечу, что задачи, которые возникают у людей, в основном типичны. Вся эта структура для 80% запросов строится за 20% усилий. Какие-то простые вещи можно заполнить с помощью краудсорсинга. Например, с помощью сервиса Яндекс.Толока.

Новые запросы, на которые невозможно найти узел, записываются и потом анализируются людьми и либо добавляются как синонимы других запросов, либо на их основе создаётся новый узел. А пользователю выдаются результаты для этого запроса как по полнотекстовому поиску (сегодняшняя модель) + форма с просьбой пояснить, к какой сфере относится его запрос, что он имел ввиду и каким бы он хотел видеть ответ. Потом эти запросы можно отсортировать по частоте и отдать специалистам, чтобы те заполнили пробелы.

Заполнение благами

Напомню, что блага — это конкретные товары и услуги, предоставляемые конкретными представителями бизнеса. Те сферы, которые сейчас хорошо структурированы в интернете, можно разобрать машинными методами. Сейчас многие интернет-магазины представлены в Яндекс.Марете и имеют .yml файлы у себя на сайтах, их можно автоматически забирать и класть в узел уже в структурированном виде, при этом и параметры категорий все заранее известны.

Создание поискового движка

Поскольку данные у нас более структурированы и мы можем отвечать на запросы на естественном языке. Ведь мы знаем и семантику сущностей (у нас есть онтология), есть параметры, есть типы вопросов, есть типы ответов. Есть глаголы — это действия, которые хочет совершить пользователь, из серии «купить», «продать», «взять в аренду». За это всё отвечают определённые слова, которых ограниченное количество. Мы можем понять, что в запросе «купить ноутбук диагональ 15 в москве»

  • купить — действие «получение» на оси ответов: 4, 5, 6
  • ноутбук — ось онтологии
  • диагональ — параметр узла
  • 15 — значение параметра в узле
  • Москва — географический фильтр по параметру в узле

Кроме того, у нас сложится база популярных запросов (которых будет 80%) и благодаря механизму обратной связи мы научимся выдавать результаты в идеальном виде.

Обеспечение динамической структуризации

Анализируя параметры и их значения в узлах можно редактировать онтологию. Если некоторый обязательный параметр присутствует во всех узлах некоторой онтологии и имеет ограниченное количество значений, то его можно вынести в онтологию. Например, «автомобили» можно связать с конкретными марками отношением «общее-частное», потому что марок не так много. Во-вторых, можно сотрудничать с крупными провайдерами благ (сервисами типа Яндекс.Маркет) и предоставить им API для редактирования не только содержимого узлов, но и более верхних уровней: оси вопросов и ответов.

Обеспечение динамического заполнения благами

Разумеется, всю эту структуру заполнять должны не мы, мы только предоставляем инструменты. Нужно сделать личный кабинет для представителей бизнеса и предпринимателей, где они смогут заполнять систему своими товарами, услугами и информацией. А так же открытое API. Заполнять можно в неограниченных объёмах. Только дублирование, как я уже говорила, смысла не имеет, все ключевые параметры должны быть уникальны.

Дальнейшее развитие

  1. Пользователь (по желанию) может иметь профиль здесь как в социальной сети. Отсутствие анонимности может помочь ему завоевать доверие других пользователей, например, для совершения совместных закупок. И в целом хорошая репутация экономит деньги и силы.
  2. В данной системе прозрачное предложение и спрос. Представители бизнеса могут использовать это для планирования производства. Можно прогнозировать спрос и цену продуктов, которых ещё по факту не существует, но о которых известны значения их параметров в узле.
  3. Интеграция с системой для работы с входящим информационным потоком.
  4. Внутренняя финансовая система. Если все рыночные отношения будут происходить через данную информационную систему, то можно будет легко сделать свои деньги, к которым будет доверие за счёт глобальности проекта и того, что участники не анонимны и виден их рыночный профиль. Но главное — это значительное снижение налогового бремени, т.к. эта финансовая система попадает под налоги только при вводе и выводе средств, но все внутренние расчёты остаются записями в базе данных, не более. Сейчас такого сделать невозможно, потому что нет единого рынка, а освободиться от налогового бремени можно только пользуясь одной системой и для заработка, и для потребления, только тогда можно заработать несколько условных единиц и потратить их, не выводя.

results matching ""

    No results matching ""