Вы читаете журнал [info]bug0r

Разговоры с виртуальным... [entries|archive|friends|userinfo]
bug0r

[ хорошее | мои картинки на flickr ]
[ обо мне | смотреть ]
[ старье | читать ]

Вопрос к знатокам алгоритмов и поисковых технологий [Мар. 21, 2012|13:45]
Всем привет.

У меня есть задачка, которую, подозреваю, что можно решить, и наверняка есть алгоритмы решения такого типа задач. Если кто-то знает как решаются такие штуки – подскажите, пожалуйста.

Итак есть какие-то тексты на русском, неважно какие. Нужен способ определить, что 2 текста похожи между собой? Например, в них 80% слов пересекаются (похожи по словесному составу). Идентичность не требуется, требуется похожая тематика.

Далее, хочется похожие тексты объединять в группы. Когда в систему приходит новый текст, то нужно определить принадлежность группе текстов. Т.е. классифицировать.
Понятно, что первые тексты мы заложим в систему руками (обучим систему классифицировать), а далее она сама должна обрабатывать новые тексты.

Насколько это реально? Есть ли готовые решения? Куда копать? Ключевые слова?
Ссылка5 комментариев|Оставить комментарий

(без темы) [Фев. 9, 2012|00:11]
ЖЖ себя изжил.
Абсолютно мертв.

А почему бы мне не удалить аккаунт?
В качестве жирной точки.
Ссылка2 комментария|Оставить комментарий

О суровой борьбе Путина с тарифами на ЖКХ [Янв. 19, 2012|12:03]
Оригинал взят у [info]naganoff в О суровой борьбе Путина с тарифами на ЖКХ
В последние дни мы с вами имеем удовольствие наблюдать информационную атаку на губернатора Кировской области Никиту Белых, развёрнутую одновременно в разных СМИ и Интернете. Мол, тот отдал областное ЖКХ на откуп своим приспешникам и допустил резкий рост тарифов на ЖКХ в своём регионе, поскольку ему наплевать на жителей, а хочется лишь отдыхать даже в то время, когда новогодние праздники уже закончились. И отдыхать не где-либо, а в Швеции. Но защитник простого народа Путин перед камерами сурово прекратил эти безобразия. Оно и понятно, ведь Путин знает толк в борьбе с тарифами ЖКХ, ибо нет никого более в нашей стране, кто так бы последовательно боролся с их ростом в течение вот уже одиннадцати лет...

Проследим же из года в год этапы титанической борьбы нашего Национального Лидера с тарифами на ЖКХ, и убедимся, какой он - человек слова:


Читать дальше... )




Map


СсылкаОставить комментарий

Интернет вместо книг. Хорошо или плохо? [Янв. 6, 2012|15:52]
Представьте, что когда-нибудь все книги оцифруют и они будут доступны в Интернете.
По всем текстам построят индекс, и они будут доступны для поиска и т.п.

Представили? Хорошо это или плохо? На первый взгляд хорошо. Однако, меня беспокоит одна проблема, попробую рассказать.

Как устроен поиск информации сейчас. Есть поисковики, они индексируют тексты, строят какие-то карты релевантности и т.п. Я не специалист в этой сфере, детали представляю в общих чертах.

Если мне нужна информация, я на некотором (условно естественном) языке определяю область, зону семантики, для поиска. Поисковик же выдает мне все, что у него по этой теме(в этой зоне) есть в порядке, гм... популярности. Ну понятно же, что те кто ищут "пластиковые окна" в 90% случаев хотят их установить. В результате, пользователь имеет выдачу, список, документов, по интересуемой теме.

Получается, что по мере развития систем поиска, по мере накапливания результатов оценки релевантности от самих ищущих... бла,бла,бла. Короче, тексты одной темы укладываются в как бы слоеный пирог. Внизу самые не популярные, назовем их редкие (редко кому нужны), вверху самые популярные (постоянно востребованные). Помимо всего прочего, на положение текста внутри пирога влияют еще и внешние воздействия в виде интернет-продвижения и т.п. ранжирование

С течением времени пирог становится просто гигантским. Можно утверждать, что начиная его "есть" сверху, до низу можно и не добраться. Как этот пирог будет развиваться со временем?
Новые тексты будут добавляться как бы вниз. Если они популярны, то стремительно подниматься вверх. Вниз же будут спускаться совсем "не востребованные" тексты, например, редкие исторические книги или научные труды. Понимаете к чему я веду?

Возможна ли такая ситуация, когда редкий, уникальный текст, будет заведомо трудно находим, потому что он не популярен?

Может ли это привести к потере такой информации навсегда?

Нет, это не значит, что его уничтожат физически. Файл с номером в несколько триллиардов будет лежать в отказоустойчивом кластере до скончания времен. Но не получится ли, что LastViewDate будет указывать на дату в десять, сто или тысячу лет назад?

В чем прелесть физического объекта книга (в данном контексте), что в библиотеке его протирают(?) от пыли и он как бы существует, хотя бы для этого протиральщика. Возможно, он прочитает или, о боже, запомнит название этой книги.

Основные вопросы:
1. реален ли описанный сценарий?
2. нужно ли что-то предпринимать для исправления такой ситуации?

Дальше по плану должна последовать дискуссия. :-)
Ссылка16 комментариев|Оставить комментарий

Новогодний [Дек. 31, 2011|19:30]
[Tags|]

Прошедший год для меня был очень длинным, очень интересным и супер-продуктивным.
Хотя, иногда события развивались слишком медленно.

[info]leonwolf меня опередил, но тем не менее — очень здорово и круто, когда год длинный. Наша жизнь — это то, что мы помним, а помним мы самые яркие и значимые события.
В этом году впечалений и событий было очень много. Это радует и вселяет надежду, что в следующем году будет всего всего больше.

Друзья, С Новым Годом!

Пусть у каждого будет столько ярких событий, что прошедший 2011 покажется пролетевшим пулей.
Ссылка1 комментарий|Оставить комментарий

С новым Годом!! [Дек. 29, 2011|18:51]
СсылкаОставить комментарий

Штука для дела (не политика) [Дек. 9, 2011|21:33]
[Tags|]

Пару дней назад сделал вот такую штуку. Периодически залипаю на ней.



Кстати, она вполне себе для дела. Это такой "loading" у нас теперь.
Ссылка3 комментария|Оставить комментарий

Kevin Kern [Дек. 5, 2011|12:37]
СсылкаОставить комментарий

Про выборы [Дек. 5, 2011|12:06]
[Tags|]

Я хотел написать длинный и подробный пост. И даже уже придумал его в голове, но передумал.

Коротко о главном.

1. На моем УИК выборы прошли честно. Да, не все было по закону, но все было честно.

2. Электорат партии "Единая Россия" - это алкоголики, жулики и, к сожалению, пенсионеры. Люди реально ставят галочку по старой памяти. Многие ведутся на пропаганду по ТВ. Их много и они ходят на выборы. Из тех кто пришел 40% - пенсионеры, а может и больше.

Многие принимали решение о выборе на основе плаката с кандидатами. И тут решает фото, конечно. Улыбчивый Марчевский (директор цирка) вне конкуренции.

3. Наблюдатели от других партий - никакие не наблюдатели. Сидели в уголочке, читали книжки, спали, скучали. Один только мужик от СР пытался хоть что-то делать. И от СР еще был член комиссии, вот он реально понимал зачем он на участке - большой молодец.

4. Видел живого наблюдателя Правого дела. Пришла утром зарегистрировалась, вечером - забрать протокол.

И еще, самое неприятное и наверно очень важное.
Вся "пропаганда" со стороны голоса сводится к мысли "УИК будут нарушать - ваша задача поймать и зафиксировать".
В итоге, когда УИК не нарушает (в моем случае) идет разрыв шаблона. Я начинал искать эти самые нарушения, которые мне все вокруг обещали. Искать в мелочах. Ищу, ищу, а их нет.
Педставляете.
- Явка сходится с моей цифрой с точностью до 7 человек. При цифрах в 700-900.
- Ящики всем продемонстрированы - пусты, опечатаны, стоят на виду.
- Книги сброшюрованы, подписаны, печать стоит.
- Откепительные забирают (я стоял прямо за этим столом, где доп. список)
- Подвоза нет
- Вынести не пытаются (почти)
- С мобильными урнами ходил - все нормально.

Догадайтесь, что в итоге?
Правильно. Зацепился за самое ничтожное нарушение, которое смог идентифицировать. Мужик с женой пришли голосовать, у нее прописка, у него временная. По закону он должен был подать заявление за 3 дня в УИК. Но пришла председатель сказала - напишите сейчас заявление, прогосуете. Я ей заметил, что по закону так нельзя. Позвонил узнал номер статьи. Нашел в тексте и показал (Поразительно, но у них все ФЗ были на столах. И они соглашались, если им покажешь статью). Все эти 20 минут секретарь дозванивалась в ТИК. Через 20 минут споров, таки в Тик сказали не регистрировать. Вроде как ответственность с себя сняли. Мужик, конечно расстроился, обещал написать в интернете. Но налаженный контакт с комиссией я потерял. Осадочек остался, не слушали они больше меня. А дальше больше, стоит мне рот открыть, как они уже отмахиваются. Обидно, конечно.

А самое интересное знаете в чем?
Они реально жаждали его зарегистрировать зная, что это не законно. Аргументация - Мужик не виноват, что заявление не написал, виновата власть, что до него не довела, что надо заявление то написать. И так ко всем законам - А я типа не знал, до меня не довели. Ну и законы у нас типа плохие, простым людям только и мешают.

Но притча не об этом. А о том, что не надо искать нарушений там, где их нет.
Да, это приходит с опытом.

И еще, за что я сражался в этот день? Я сражался за то, чтобы не было нарушений, чтобы все было честно. И цель то достигнута, я считаю, что все честно на моем участке №1516.

Но ощущения победы нет, наоборот, как будто проиграл что-то серьезное. И сегодня утром я понял что.

В погоне за законностью я проиграл человеческое отношение людей, которые были там, рядом со мной, которые на протяжении всего дня шли бок о бок, помогали друг другу, знали, что цель одна. И вроде она и была одна, но увы.

От этого немного грустно...


P.S. Так, я смотрю меня начинают успокаивать. Стоп. Все отлично!
Ссылка18 комментариев|Оставить комментарий

navigation
[ viewing | most recent entries ]
[ go | earlier ]