Поиск текста на веб-страницах с указанием списка URL-адресов

У меня есть список из нескольких тысяч URL-адресов, и я хотел бы искать каждую из этих страниц для данного слова. Как я могу сделать это программно в Windows, желательно используя VBScript или Powershell?

  • Лучший способ * уверенно * искать файлы и содержимое в Windows без использования службы индексирования?
  • Как я могу редактировать все файлы, найденные в vi в Linux?
  • Как добавить пользовательскую поисковую систему в Firefox?
  • Windows 10 Search не может найти ЛЮБЫЕ приложения. Даже калькулятор
  • Совместный поиск приложений и настроек Windows 8?
  • Настройка Notepad ++ найти стиль результатов
  • Панель задач Windows 7 как боковая панель, минимальная ширина фиксирована
  • Не удается установить Windows 7 на расширенный раздел
  • Можно ли улучшить качество текста в изображении?
  • Является ли чистая установка действительно лучше обновления?
  • Экспортировать результаты поиска Windows 7 в текстовый файл
  • Планировщик задач Windows 7 не перечисляет мои пользовательские задачи.
  • 2 Solutions collect form web for “Поиск текста на веб-страницах с указанием списка URL-адресов”

    Изменить: исходный вопрос не указывал VBScript и Powershell. Я оставляю это предложение на Python в надежде, что кому-то в будущем пригодится.

    Каков самый быстрый способ сделать это программно в Windows? Я думаю, что «самый быстрый» – это функция ваших способностей.

    С моими навыками я бы взломал скрипт python для этого, поскольку это было бы самым быстрым способом для меня. Сценарий, как я писал бы, выглядел бы вроде как

    search_string = "" #String you're search for sites_with_str = {} #List that'll contain URLs with search_string in them file = fopen("c:\sites.txt", "r") for site in file: html = wget(site) if html.contains(search_string): sites_with_str.add(site) file.fclose() #it's just polite to close your read handles #Print out the sites with the search string in them print "\n\nSites Containing Search String \""+search_string+"\":" for each in sites_with_str: print each 

    Конечно, это своего рода Pseudo-Python. Вам нужно будет найти библиотеку, которая захватит сайт для вас. И, очевидно, для этого потребуется небольшая рекурсивная функция и некоторый синтаксический анализ строк, если вы хотите выполнить поиск по всем страницам на каждом сайте, указанном во входном файле.

    Я решил свою собственную проблему, если кто-то сталкивается с тем же требованием:

     $webClient = new-object System.Net.WebClient $webClient.Headers.Add("user-agent", "PowerShell Script") $info = get-content c:\path\to\file\urls.txt foreach ($i in $info) { $output = "" $startTime = get-date $output = $webClient.DownloadString($i) $endTime = get-date if ($output -like "*some dirty word*") { "Success`t`t" + $i + "`t`t" + ($endTime - $startTime).TotalSeconds + " seconds" } } 
    Давайте будем гением компьютера.