Библиография и рекомендации для дальнейшего чтения

Библиография и рекомендации для дальнейшего чтения Глубокое исследование процесса построения индекса и дополнительных алгоритмов индексирования с разными требованиями к объемам оперативной и дисковой памяти, а также к временным ресурсам изложено в работе Уиттена и др. (Witten et al., 1999). В целом блочное индексирование, основанное на сортировке, хорошо соответствует всем трем требованиям. Однако, если основным критерием является экономия оперативной или дисковой памяти, более подходящими могут оказаться другие алгоритмы (Witten et al., 1999). Больше остальных на алгоритм “параллельного слияния, основанного на сортировке” (sort-based multi-way merge) похож алгоритм BSBI. Однако эти два алгоритма различаются структурой словаря и применением сжатия.

В работе Моффата и Белла (Moffat and Bell, 1995) показано, как создать индекс in situ, “на месте”, т.е. чтобы размер дисковой памяти, используемой в процессе построения, был близок к размеру памяти, которую будет занимать окончательный индекс, а количество временных файлов было минимальным (см. также работу Харман и Канделы (Harman and Candela, 1990)). Авторы указывают, что Леек (Lesk, 1988) и Сомогий (Somo- giy, 1990) были среди первых, кто предложил использовать сортировку для построения индекса.

Метод SPIM1, предложен Хайнцем и Цобелем (Heinz and Zobel, 2003). Мы упростили некоторые аспекты алгоритма, включая сжатие и тот факт, что структура данных для каждого термина, кроме инвертированного списка, также содержит частоту документа и другую вспомогательную информацию. В качестве наиболее современного и глубокого исследования процесса конструирования индекса мы рекомендуем работы Хайнца и Цобеля (Heinz and Zobel, 2003) и Цобеля и Моффата (Zobel and Moffat, 2006). Другие алгоритмы с хорошими возможностями масштабирования по размеру лексикона требуют нескольких проходов по данным, например FAST-INV (Fox and Lee, 1991; Harman et al., 1992).

Архитектура MapReduce была предложена Дином и Гемаватом (Dean and Ghemawat, 2004). Открытая реализация архитектуры MapReduce доступна по адресу http:// lucene.apache.org/hadoop/. Другие подходы к распределенному индексирова-нию описаны в работах Рибейро-Нето и др. (Ribeiro-Neto et al., 1999) и Мельника и др. (Melnik et al., 2001). В качестве введения в распределенные информационно-поисковые системы можно использовать главы из книг Баеза-Йейтса и Рибейро-Нето (Baeza-Yates and Ribeiro-Neto, 1999) и Гроссмана и Фридера (Grossman and Frieder, 2004). См. также работу Каплана (Callan, 2000).

Свойства логарифмического слияния и результаты их сравнения с другими методами описаны в работах Лестера и др. (Lester et al., 2005), а также Бютчера и Кларка (Buttcher and Clarke, 2005а). Одной из первых применений этих методов была система Lucene (http://lucene.apache.org). Другие методы динамического индексирования обсуждались в работе Бютчера и др. (Buttcher et al., 2006) и Лестера и др. (Lester, 2006). Во второй статье также обсуждается стратегия замены старого индекса индексом, созданным заново.

Хайнц и др. (Heinz et al., 2002) сравнил структуры данных для накопления лексикона в памяти. Бютчер и Кларке (Biittcher and Clarke, 2005b) рассмотрели модели безопасности обычного инвертированного индекса и многочисленных пользователей. Подробная характеристика коллекции Reuters-RCVl изложена в работе Льюиса и др. (Lewis et al., 2004). Эту коллекцию распространяет Национальный институт стандартов и технологии (National Institute of Standards and Technology — NIST) (CM. http: //tree. nist. gov/ data/reuters/reuters. html).

Обзор компьютерного аппаратного обеспечения в контексте разработки информационно-поисковых систем содержится в работе Гарсия-Молина и др. (Garcia-Molina et al., 1999).

Эффективный индексатор для корпоративного поиска должен иметь надежную и быструю связь со многими приложениями, в которых хранятся текстовые корпоративные данные, включая программы Microsoft Outlook, электронные таблицы Lotus компании IBM, базы данных, например Oracle и MySQL, системы управления контентом, такие как Open Text, а также системы планирования ресурсов, например SAP.

Рэп минуса и рэп биты на портале SV Battle

Биты и минуса для рэпа на сайте www.sv-battle.ru

С приходим интернета в широкие массы в музыкальной индустрии упростился процесс раскрутки артистов. Достаточно записать хороший трек, снять интересный клип, залить в соц сети и пропиарить по тематическим группам и форумам. Но что бы записать хорошую песню нужен хороший продакшн. Но где найти хорошего продюсера и битмэйкера? Известные личности просят большие деньги за свою работу. Но есть много талантливых битоделов, но не сыскавших еще славу которые зачастую могут создать куда более качественные музыкальные творения за очень скромное вознаграждения или даже бесплатно. Но как их найти? Для решения этой проблемы на портале SV Battle ( www.sv-battle.ru) был создан сервис "SV Battle Beats". Каждый битмэйкер может бесплатно создать свою личную анкету и добавить в нее свои рэп минуса, а артисты могут ознакомится с этими анкетами и найти битмэйкера для сотрудничества. Уже сейчас десятки битмэйкеров имеют свои анкеты на "SV Battle Beats" и пиарят свои рэп биты от лирических рэп минусов, до танцевальных ригатон и R&B минусовок. "SV Battle Beats" - это то место где встречаются таланты.

tel-icq