KARTz.RU
кушаешь морковь – встанет вновь и вновь

wiki thumbs download script

Январь 24th, 2016


#!/bin/bash

bzcat ruwikinews-20160111-pages-articles.xml.bz2 | grep -o -E "\[\[Файл:.*\]\]" | while read REPLY; do

f=$(echo -n "$REPLY" | grep -o -E "\[\[Файл:[^\|]*" | sed -e 's/\[\[Файл\://g' | sed -e 's/ /_/g')
s=$(echo -n "$REPLY" | grep -o -E "\|.{1,4}px" | sed -e 's/\|//g')

if [ -z "$s" ]
then
s="250px"
fi

m=$(echo -n "$f" | md5sum | awk '{print $1}')
m1=${m:0:1}
m2=${m:0:2}

url="http://upload.wikimedia.org/wikipedia/commons/thumb/$m1/$m2/${f}/${s}-${f}"
echo "$url"
#wget -nv -nc -x --restrict-file-names=nocontrol "$url"
url="http://upload.wikimedia.org/wikipedia/ru/thumb/$m1/$m2/${f}/${s}-${f}"
#wget -nv -nc -x --restrict-file-names=nocontrol "$url"
echo "$url"

done

# output of this script pass | sort | uniq > urls.lst
# wget -nv -nc -x --restrict-file-names=nocontrol -i urls.lst


Filed under: Без рубрики | Метки: ,
Январь 24th, 2016 20:17:48

Напоминалка

Август 02nd, 2013

Этого так не хватало.
Напоминалка, что осталось мало места. В крон.


#!/bin/sh
rootfree=`df | awk '{if ($6=="/") {print $4}}'`
if test 50000 -gt $rootfree
then notify-send 'Осталось менее 50 мб'
fi


Filed under: Без рубрики | Метки: ,
Метки: ,
Август 02nd, 2013 16:58:39

А я говорил

Декабрь 09th, 2012

Норвежский Лесной давеча написал:

В-шестых, важно понимать, против кого успешно работает Единый реестр, контролирующийся Роскомнадзором – подведомственным органом Минкомсвязи.

Он бьет не по комиксам, не по Штефанцу и не по Студии Артемия Лебедева. Он бьет по российским провайдерам, предоставляющим услуги хостинга. Бьет сильно, эффективно, наотмашь. Он самым простым и эффективным образом объясняет, как увеличиваются риски, если вы создаете российский интернет-проект, сайт, стартап – в России. Там, куда дотягивается Роскомнадзор. Внутри цифрового лагеря, опутанного колючим оптоволокном, со всеми его вертухаями, вышками и лающими овчарками.

Потому что за пределами цифровой проволоки есть нормальный мир с нормальным хостингом, где комикс Штефанца и толстовская Анна Каренина не считается информацией о способах совершения самоубийства, а «Морфий» Булгакова – информацией о способах, методах разработки, изготовления и использования наркотических средств, психотропных веществ и их прекурсоров.

И что теперь вам, затевая новый интернет-проект или стартап, нужно трижды, четырежды подумать – где он должен жить и кому лучше платить за его хостинг или поддержку. Потому что вашм деньгам – как и вашему контенту – теперь и лучше, и гораздо спокойнее будет в Великобритании, США, Австралии, Бразилии, Прибалтике, Малайзии, Сингапуре, Голландии, Швеции, Норвегии, Швейцарии и т.п.

Потому что Российская Федерация прикладывает сегодня максимум усилий для организации плановой и массированной утечки контента за пределы юрисдикции РФ – как и денег, которые платятся за хранение и поддержку этого контента.

В-седьмых, российские провайдеры, которых Минкомсвязи лишает сегодня денег, перспектив и будущего, понимают это лучше других.
(далее…)


Filed under: Без рубрики | Метки: , ,
Декабрь 09th, 2012 11:47:59

smartctl

Август 26th, 2012

sudo smartctl -a /dev/sda
(далее…)


Filed under: Без рубрики | Метки: ,
Метки: ,
Август 26th, 2012 01:12:11

архив миниатюр для русской википедии

Июль 16th, 2012


Наверно, все знают, что можно свободно скачать себе дамп википедии и развернуть клон на своём компьютере/сервере. Но дамп содержит только текстовую информацию, дампы изображений не предоставляются.

Есть несколько проектов по выкачиванию изображений с википедии разной степени успешности. А я тут подумал, что сами изображения мало кому нужны, и выкачал миниатюры в тех размерах, в каких они вставлены в статьи русской википедии. Получилось довольно компактно — 6 гб. Ссылки внутри.
(далее…)


Filed under: Без рубрики | Метки:
Метки:
Июль 16th, 2012 17:00:45

как скачать все картинки из википедии

Июль 11th, 2012

1. скачиваем свежий дамп
2. парсим/качаем

bzcat ruwiki-20120515-pages-articles.xml.bz2 | grep -o -E "\[\[Файл:[^\|]*" | sed -e 's/\[\[Файл\://g' | sed -e 's/ /_/g' | while read ; do echo "$REPLY"; m=$(echo -n "$REPLY" | md5sum | awk '{print $1}'); echo "$m"; url="http://upload.wikimedia.org/wikipedia/commons/${m:0:1}/${m:0:2}/${REPLY}"; echo "$url"; wget --restrict-file-names=nocontrol --no-clobber "$url"; done

потом «commons» в адресе заменяем на «ru» и прогоняем ещё раз
функционал – как у Wikix, только работа6ет лучше и компилить не надо
(далее…)


Filed under: Без рубрики | Метки: ,
Июль 11th, 2012 22:37:38

резерв

Май 04th, 2012

– Проходите, что у Вас?
– Доктор, я иногда просыпаюсь с мыслью, что давно не делал резервную копию своих резервных копий, и бегу её делать. Это нормально?
– Ой… Подождите, у нас технический перерыв!


Filed under: Без рубрики | Метки: ,
Метки: ,
Май 04th, 2012 23:16:51

osm planet

Апрель 11th, 2012

За полтора года карта Земли увеличилась в объёме почти в 2 раза – с 11 до 21 гб в сжатом виде.


Filed under: Без рубрики | Метки: ,
Апрель 11th, 2012 14:22:22

Корневой DNS сервер своими руками

Апрель 02nd, 2012

Я всё больше убеждаюсь, что история про атаку анонимусами корневых днс-серверов 31 марта – журналисткая утка. Ну, в смысле, конкретно про 31 число все уже убедились, а я всё ещё рассуждаю про возможность и результативность такой атаки.

Начнём с того, что… атака должна продолжаться как минимкм TTL секунд, что для доменов первого уровня может достигать нескольких дней, и быть весьма и весьма мощной. Это довольно дорого.

И, во-вторых, корневые днх хранят довольно мало информации (около 10 килобайт), которая к тому же довольно редко меняется. Под катом сегодняшний слепок корневых днс, можете сохранить его и при необходимости использовать в экстренных случаях.
(далее…)


Filed under: Без рубрики | Метки: , , , ,
Апрель 02nd, 2012 10:39:58

резервная копия всего нетбука

Февраль 13th, 2011

Думаю поставить ubuntu на нетбук. Сейчас там opensuse. Перед переустановкой решил сделать резервную копию всего накопителя «на всякий пожарный».
(далее…)


Filed under: Без рубрики | Метки: , , ,
Февраль 13th, 2011 16:36:38