> grep, awk, sed это утильки уровня 1-2 метода на java.Неужели? Понимаю, бывает сложно оценить сложность задачи. Однажды Джон Маккарти дал студентам задние на лето: создать систему распознования образов. Он искренне полагал, что к сентябрю она будет решена. Однако спустя 50 лет мы всё ещё бьёмся над её решением. =)
1-2 метода -- это явная профанация с вашей стороны. Это всё равно, что сказать "парсинг параметров командной строки согласно стандарту GNU -- относительно простая задача". Правда, потом авторы таких заявлений смотрят, ну к примеру, на модуль cmdliner для ocaml и начинают ныть: "Ой, а что так сложно? Аргумент -- это не строка, а структура с кучей параметров? Какие-такие термы, и почему их надо вычислять? Я должен определять какие-то там конвертеры типов для аргументов? Ух ты, позиционные параметры рассматриваются отдельно от опциональных? И есть несколько типов опциональных?! Ай, какой овер-инжиниринг". Вот только библиотеку попроще они написать не могут, по понятным причинам.
> curl/wget - убожеские поделки, которые в 2015 году не умеют исполнять javascript,
> в итоге на 95% сайтов уже ничего не скачают.
Интересно, за каким фигом curl нужен js. Или зачем wget-у. Для чего он там нужен? Для ftp или для imap? Или для http?
Странно то, что утилита, созданная для утягивания контента по заданному url, почему-то должна его ещё и парсить. Не лучше ли данную задачу перепоручить чему-то, что работает с html?
> До джавовского Htmlunit ещё 100 лет не дорастут.
Кстати, на счёт парсить html. Возможно, лучше посмотреть в этом случае на нечто, что генерирует DOM? На webkit, например? Ой, неужели webkit ВНЕЗАПНО умеет и javascript, и всё остальное? )