Страницы: 1 2 След.
RSS
Проэкт метасайт, есть ли уже такое или нет
Задумка в следующем. "Мета" - инструменты, касательно интернет- страниц, арргерируют инфу с сайтов и подают в суммарном или удобном для пользователя виде. Например, есть мета-поисковик рабочих мест, который просто суммирует обьявления о работе с сайтов как monster.de , job.de  и тому подобное, и выдает список чтоб можно было проводить один поиск во всем этом списке.
Но можно было бы представить себе инструмент, который по запросу юзера проводит пакетную обработку множества сайтов, с вырезанием лишь нужого пользователю контента, и суммирует в некий список или отчет. Внешний вид выхода определяется у пользователя.

Как минимум, инструмент должен собирать источники: делать автоматически серию запросов в поисковики(известно, что при переформулировании фразы, результат поиска может сильно измениться - вот это должно делаться автоматом), а дальше находить нужные ссылки и переходить по ним.

В идеале, этот инструмент должен бы быть довольно умный с распознанием смысла текста, с оцениванием источников, с возможностью умного сбора данных, например в хронологию или статистику.


Вопросы
- есть ли уже такие инструменты, чтоб не изобретать велосипед? Пока что видел только примитивные "копипастные" сайты ( просто на чужое ссылающиеся), или например инструмент гугл аналитикс предлагают сбор статистики но по своему сайту
- будет ли такие функции востребованы у пользователей?
Вот... ожидаю критики, какой я неуч-марксист.
Изменено: smer4 sssmeeer - 01.09.2015 18:09:19
Да пользователи-то такой инструмент с руками бы оторвали.
Только, боюсь, что владельцам сайтов он будет сильно "поперёк характера".
Сейчас любой "широковещательный" (не профессиональный) сайт насыщен и перенасыщен всевозможными рекламными баннерами и прочим мусором, нафиг не нужным пользователю. Даже сайт НиЖ ими напичкан. А у многих сайтов мусорный трафик сильно превышает полезный.
Получив подобный инструмент, пользователь сможет "выцеживать" из сайтов полезную информацию, а ненавистную рекламу не качать. Кому же это понравится? А значит, начинание это бесперспективное...
В споре рождается не истина, а победа.
Дык Вольфрам-альфа
Не?
Ясность - одна из форм полного тумана
Цитата
Техник пишет:
Дык Вольфрам-альфа Не?
скорее нет чем да хотя спасибо за ссыль посмотрю что и как там.
Например
http://www.wolframalpha.com/input/?i=Capoeira+groups+in+Frankfurt+am+Main
выводит информацию о Франкфурте, а о не находящихся там группах капоэйры о чем был запрос. Гугл лучше отвечает.

Эмм, я не понял как им пользоваться или с помощью него вообще нельзя сделать сравнение цен продуктов. Пытался
banana price in Hessen
banana prices in Hessen
banana prices in ALDI (магазин такой)
и даже
banana ALDI не понимает
Germany breakdance <- одно из слов игнорирует
Изменено: smer4 sssmeeer - 02.09.2015 00:22:33
Цитата
smer4 sssmeeer пишет:
выводит информацию о Франкфурте, а о не находящихся там группах капоэйры о чем был запрос.
Ну да, говорит "Wolfram|Alpha doesn't understand your query", не понял запрос, типа не может интерпретировать.
Ну, фиг знает, я не ковырялся :)
Ясность - одна из форм полного тумана
Цитата
Техник пишет:
Wolfram|Alpha
не в описании стоит что он на базе данных, а тудоа просто запросы строкой. Естественно искать по интернету в нем нельзя.
Я же представляю себе последовательность
- Задача поисковикам запроса и суммирование (типа http://www.webcrawler.com). Только с возможностью завадать с  сцепифическим форматированием типа как в monster и т.п.
-Первичная токенизация наверное в XML
- Отыскивание в страницах непосредственно нужной информации разными функциями, разными по простоте - от места на странице до распознования текста.
- Отыскивание ссылок на другие страницы которые могут заинтересовать.
- различная обработка результатов и создание на клиенте форматированого вывода.
Изменено: smer4 sssmeeer - 02.09.2015 17:25:35
Цитата
smer4 sssmeeer пишет:
не в описании стоит что он на базе данных, а тудоа просто запросы строкой.
Так там большая база данных, и потом, вы же не думаете что в интернете данные более достоверные? Да и запросы задаются на естественном языке, а он уже интерпретирует и вычисляет ответ.
Цитата
smer4 sssmeeer пишет:
Естественно искать по интернету в нем нельзя.
Ну, по крайней мере погоду показывает в реальном времени и довольно подробно :)
Цитата
smer4 sssmeeer пишет:
Отыскивание в страницах непосредственно нужной информации разными функциями, разными по простоте - от места на странице до распознования текста.
Насколько я понимаю, как раз этим он и занимается, только в своей базе данных. И, кстати, в версии pro там вроде как есть возможность загрузки своих собственных данных для анализа.
Ясность - одна из форм полного тумана
Тогда не то. Идея моего проэкта в автоматическом data mininge в интернете. Самому загружать в обособленную базу данных и потом там искать это да простят меня модераторы, заниматься онанизмом.
В принципе я уже нашел все для первого шага
1 а)хорошое описание концепции веб спайдера Тут
1 b) Для каждого поисковика понадобится транслит из запроса к метасистеме в запрос к поисковику. Например для гугля информацию о параметрах запроса можно взять
здесь
для monster получается простая строка
Цитата
www14.monster.de/jobsuche?q=IT & where = Hessen
где заместо IT пишется профессия, Hessen - регион или город
1 с) Важный вопрос : Какой лучший парсер и обработчик HTML в Java?
1 d) Выделить нужный элемент можно например Вот так хотя мне не нравится что очень тяжелый инструмент. Для начала бы можно простой автоматик...
Цитата
smer4 sssmeeer пишет:
Идея моего проэкта в автоматическом data mininge в интернете.
Так с какой целью? Чего вы в этом Дурнете хотите выловить?

Вот пиндосы - понятно, террористов отлавливают с сомнительным успехом, или шпионят. Желаете конкурировать с АНБ?
:)
Изменено: Техник - 03.09.2015 08:12:49
Ясность - одна из форм полного тумана
Цитата
Техник пишет:
Так с какой целью? Чего вы в этом Дурнете хотите выловить?
автоматизировать то что пользователь делает вручную при поиске какой то темы - чтоб вникнуть в вопрос, юзер задавал бы запросы многим поисковикам, переходил на страницы, читал бы там что то, переходил дальше по ссылкам. Кошмар, это же часы гемора. Кроме того поисковики искажают данные рекламой, например ставя проплаченные ресурсы наверх, и привязкой к ИД пользователя.
Страницы: 1 2 След.

Проэкт метасайт


Портал журнала «Наука и жизнь» использует файлы cookie и рекомендательные технологии. Продолжая пользоваться порталом, вы соглашаетесь с хранением и использованием порталом и партнёрскими сайтами файлов cookie и рекомендательных технологий на вашем устройстве. Подробнее