Парсинг большого объема разнообразной информации

Ежедневный, еженедельный, ежемесячный и ежеквартальный множественный парсинг большого объема информации по компаниям и фондам, акции которых торгуются на фондовом рынке США. Демо-версия одного из модулей парсинга и отчеты в html по скачанным данным.

Длительный парсинг большого объема разнообразной информации из 4 источников данных

Ежедневный, еженедельный, ежемесячный и ежеквартальный множественный парсинг большого объема информации по компаниям и фондам, акции которых торгуются на фондовом рынке США. Демо-версия одного из модулей парсинга, модули просмотра данных и отчеты в html по скачанным данным.

Данные скачивались из 4 источников по более чем 7400 компаниям и фондам более года. Данные записывались в базу данных MySQL, объем которой составил более 4 гигабайт. По всем этим компаниям и фондам скачивались данные по ценам и объемам продаж акций еженедельно (с возможностью и ежедневного скачивания, которое не проводилось для экономии времени и за ненадобностью этих данных каждый день). Данные по акциям для более чем 700 компаний и фондов скачивались с nasdaq.com, по ним же из этого же источника ежедневно (то есть через несколько часов после завершения каждого дня торгов) скачивались данные по опционам (далее - опциям). Данные по акциям для остальных компаний и фондов скачивались с finance.yahoo.com. Также через некоторое время постоянно скачивались данные по опциям более чем 4,2 тысяч компаний с finance.yahoo.com. Раз в 4 недели скачивался очень большой объем всевозможных финансово-аналитических данных по всем этим компаниям и фондам из 3 источников: nasdaq.com, finance.yahoo.com и zacks.com (это называлось "паспортами" компаний и фондов). Первоначально все данные скачивались обычным персональным компьютером, впоследствии данные по "паспортам" скачивались через физический выделенный сервер, объединенный в сеть с этим компьютером, в том числе и через общедоступные прокси-серверы (zacks.com забанил мой ip-адрес, хотя закачки с него и не были такими уж и большими и, тем более, частыми). Раз в квартал по всем компаниям и фондам скачивались данные по квартальным сюрпризам с nasdaq.com. Одноразово с gurufocus.com/financials по всем компаниям был скачан большой объем данных за большие периоды времени (до 10 лет включительно, в том числе и по 5 последним кварталам) по их финансовым отчетам.


Ниже представлены скриншоты с пояснениями, демонстрирующие работу одного из модулей парсинга. Более подробно о его работе сказано в подсказке к нему.


Внешний вид модуля при его открытии:

 

Модуль имеет множество настроек:

 

А также модули просмотра и редактирования скачанных и записанных в MySQL данных:

 

Эти скачанные данные легко можно сравнивать с оригинальными, нажимая на кнопки показа данных по акциям и опциям в источнике данных:

 

Легко и быстро можно добавить новый тикер (сокращенное наименование компании или фонда на бирже) как вручную, так и из списка ранее спарсенных тикеров:

 

Данные по акциям скачивались из 2 источников (Насдак и Яху-финансы).  Следующие несколько скриншотов иллюстрируют парсинг этих данных из этих источников и их просмотр:

 

Парсинг квартальных сюрпризов:

 

Завершающие скриншоты иллюстрируют парсинг данных по опциям и их сравнение с данными в первоисточнике. Там также проиллюстрировано повторное скачивание данных, если ДВЕ подряд попытки скачивания файлов не привели к успеху:




Следующее видео показыват некоторую часть функционала приложения:







Ссылки:

(Здесь представлена только очень малая часть данных по компаниям и фондам, а именно только по тем, по которым представлены данные в модуле опций (см. выше); редактирование, добавление и удаление данных отключено.)
Демо-версия одного из модулей парсинга.
(Там отключена работа следующих кнопок: "Обработать фалы акций", "Скачивание файлов акций альтернативным способом", "Скачать и обработать файлы опций", "Выполнить Шаги 1, 2, 3 один за другим", "Скачать и обработать сюрпризы". Работу этих кнопок и всего модуля в целом можно посмотреть на скриншотах ниже или в к нему).

(здесь представлена только малая часть данных по компаниям и фондам, тикеры (сокращенные наименования на фондовой бирже) которых начинаются на "a"; редактирование, добавление и удаление данных отключено).
.
Cкриншоты и пример отчета.
.
.
Отчет в html-формате по всем скачанным данным по состоянию на 27 февраля 2015 г.
Финансовые отчеты компаний за последние 10 лет и последние 5 кварталов.
www.000webhost.com