web-scraping

  • 381 рейтинг
    40 ответов
    Варианты соскоба HTML?

    Я подумываю попробовать Beautiful Soup , пакет Python для очистки HTML. Есть ли какие-либо другие пакеты для очистки HTML, на которые мне стоит обратить внимание? Python не является обязательным требованием, на самом деле мне интересно услышать и о других языках.

    ...
  • 75 рейтинг
    6 ответов
    В чем разница между веб-сканированием и веб-сканированием?

    Есть ли разница между сканированием и просмотром веб-страниц?

    Если есть разница, какой метод лучше всего использовать для сбора веб-данных для предоставления базы данных для последующего использования в специализированной поисковой системе?

  • 65 рейтинг
    9 ответов
    Соскоб с помощью Java

    Я не могу найти ни одного хорошего API, основанного на веб-очистке. Сайт, который мне нужно почистить, также не предоставляет API; Я хочу перебрать все веб-страницы с использованием некоторого pageID и извлечь заголовки HTML / другие материалы в их DOM-деревьях.

    Существуют

    ...
  • 51 рейтинг
    11 ответов
    Разбор HTML Java

    Я работаю над приложением, которое собирает данные с веб-сайта, и мне было интересно, как мне получить данные. В частности, мне нужны данные, содержащиеся в нескольких тегах div, которые используют определенный класс CSS. В настоящее время (для целей тестирования) я просто

    ...
  • 47 рейтинг
    10 ответов
    Как вы чистите AJAX-страницы?

    Посоветуйте, пожалуйста, как чистить страницы AJAX.

  • 24 рейтинг
    6 ответов
    Какой самый быстрый способ очистить HTML-страницу в Android?

    Мне нужно извлечь информацию из неструктурированной веб-страницы в Android. Информация, которую я хочу, встроена в таблицу, у которой нет идентификатора.

    Description I want this field next to the description cell

    Должен ли я использовать

    • Pattern Matching?
    • Использовать BufferedReader для извлечения
    ...
  • 22 рейтинг
    5 ответов
    Как программно войти на веб-сайт для создания экрана?

    Мне нужна информация с сайта, который не принадлежит мне. Чтобы получить эту информацию, мне нужно войти на сайт, чтобы собрать информацию, это происходит через форму HTML. Как я могу сделать этот аутентифицированный скрининг в C #?

    Дополнительная информация:

    • Проверка подлинности
    ...
  • 20 рейтинг
    9 ответов
    Как работают скребки экрана?

    Я слышу, как люди пишут эти программы все время, и я знаю, что они делают, но как они на самом деле это делают? Я ищу общие понятия.

  • 13 рейтинг
    4 ответов
    Очистить содержимое веб-страницы

    Я занимаюсь разработкой проекта, для которого я хочу очистить содержимое веб-сайта в фоновом режиме и получить ограниченный контент с этого очищенного веб-сайта. Например, на моей странице есть поля «ИД пользователя» и «Пароль», с помощью которых я буду получать доступ к

    ...
  • 13 рейтинг
    6 ответов
    Как вы экран скрести?

    Когда нет доступного API веб-сервиса, единственным вариантом может быть Screen Scrape, но как это сделать в c #?

    как ты думаешь об этом?

  • 12 рейтинг
    4 ответов
    Как автоматизировать несколько запросов к форме веб-поиска, используя R

    Я пытаюсь узнать, как использовать RCurl (или какой-либо другой подходящий пакет R, если я ошибаюсь из-за того, что RCurl является правильным инструментом), чтобы автоматизировать процесс отправки поисковых терминов в веб-форму и размещения результатов поиска в данных. файл. Конкретная проблема, над

    ...
  • 11 рейтинг
    13 ответов
    Какой лучший язык для очистки экрана?

    Привет! Я хочу создать настольное приложение (c # prob), которое очищает или манипулирует формой на сторонней веб-странице. По сути, я ввожу свои данные в форму в настольном приложении, она уходит на сторонний веб-сайт и, используя скрипт или что-либо в фоновом

    ...
  • 6 рейтинг
    4 ответов
    Соскоб в Интернете, скрининг экрана, советы по интеллектуальному анализу данных?

    Я работаю над проектом, и мне нужно сделать много снимков экрана, чтобы получить как можно больше данных. Мне интересно, если кто-нибудь знает какие-либо хорошие API или ресурсы, чтобы помочь мне.

    Я использую Java, кстати.

    Вот что мой рабочий процесс был

    ...
  • 6 рейтинг
    3 ответов
    Indy - IdHttp, как обрабатывать перенаправления страниц?

    Использование: Delphi 2010, последняя версия Indy

    Я пытаюсь собрать данные с веб-страницы Googles Adsense с целью получения отчетов. Однако до сих пор у меня не получилось. Он останавливается после первого запроса и не продолжается.

    Используя Fiddler для отладки трафика /

    ...
  • 3 рейтинг
    4 ответов
    Получить частичную веб-страницу

    Есть ли способ ограничения количества данных, которые CURL будет получать? Я собираю данные со страницы размером 50 КБ, но данные, которые мне нужны, находятся в верхней четверти страницы, поэтому мне нужно только получить первые 10 КБ страницы.

    Я спрашиваю, потому

    ...
  • 3 рейтинг
    3 ответов
    Как отобразить HTML форматированный текст в текстовой области Java-приложения?

    Я собираю данные с веб-сайта с помощью моего Java-приложения и хочу отобразить результат после анализа кода HTML-страницы в текстовой области, созданной в Swing.

    Текст как: hello everyone должен отображаться как: 'привет каждые один' в текстовой области Спасибо! !

  • 3 рейтинг
    5 ответов
    Как я могу начать работу со страницей с помощью Perl?

    Я заинтересован в изучении Perl. Я использую книги Learning Perl и сайты cpan для справки.

    Я с нетерпением жду создания некоторого веб / текстового приложения, использующего Perl, чтобы применить все, что я узнал.

    Пожалуйста, предложите мне несколько хороших вариантов для

    ...
  • 2 рейтинг
    4 ответов
    curl не работает для получения содержимого веб-страницы, почему?

    Я использую скрипт curl для перехода по ссылке и получения ее содержимого для дальнейшей манипуляции. Следующая ссылка и скрипт curl:

    <?php 
    $url = 'http://criminaljustice.state.ny.us/cgi/internet/nsor/fortecgi?serviceName=WebNSOR&templateName=detail.htm&requestingHandler=WebNSORDetailHandler&ID=368343543';
    
    //curl script to get content of given url
    
    $ch = curl_init();
    
    // set the target
    ...
  • 1 рейтинг
    1 ответов
    Visual Basic 2010 HTTP POST-запрос

    Как отправить запрос POST HTTP на сервер (в Visual Basic 2010), а затем получить ответ в виде строки.