Loading...
Normal, Gallery, Tree

Hyperboria search engine (Yacy)

Команда Yacy добавила поддержку IPv6. Теперь Yacy поисковик можно использовать для поиска по Hyperboria. Нужны добровольцы для запуска нескольких нодов.
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]:8090/ - моя первая нода
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]:8090/Network.html - сеть
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt - список сидов
http://yacy.net/en/index.html - сам поисковик.
Replies: >>17553, >>17688
Там надо какие-то настройки делать?
Так-то у меня вроде был ебилд, могу обновить и запустить. Это ведь стабильная версия, не просто ревизия?
Кстати, по ссылке не открывается.
Replies: >>17554
>>17550
1. Устанавливаем YaCy.
2. Переключаемся в режим локального поиска.
3. Добавляем список сидов в файл <yacy_home>/defaults/yacy.network.intranet.unit
Прописываем строку:
network.unit.update.location0 = http://yacy.net/en/index.html
Replies: >>17557, >>17581, >>17590
>>17552
У вас работает CJDNS?
Replies: >>17559
>>17553
Не та строка. Нужно прописывать это
network.unit.bootstrap.seedlist0 = http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt
>>17554
Вроде работал, но конкретно этот адрес не пингуется.
Скажи какой-нибудь 100% рабочий адрес в cjdns, попробую пингануть его. А то может мои пиры отвалились.
Replies: >>17561
>>17559
Похоже на то. Ни один публичный адрес не пингуется.
Если у кого заработает и кто может поделитесь пирами для CJDNS
Replies: >>17564
>>17563
Я бы поделился, но сам не могу никого найти.
Все с кем я пирился пока в жаббере молчат.
$ ping6 socialno.de
PING socialno.de(fcec:ae97:8902:d810:6c92:ec67:efb2:3ec5) 56 data bytes
64 bytes from fcec:ae97:8902:d810:6c92:ec67:efb2:3ec5: icmp_seq=1 ttl=42 time=255 ms
64 bytes from fcec:ae97:8902:d810:6c92:ec67:efb2:3ec5: icmp_seq=2 ttl=42 time=254 ms
64 bytes from fcec:ae97:8902:d810:6c92:ec67:efb2:3ec5: icmp_seq=3 ttl=42 time=287 ms
64 bytes from fcec:ae97:8902:d810:6c92:ec67:efb2:3ec5: icmp_seq=4 ttl=42 time=258 ms
Replies: >>17569
Вот те пиры к которым я подключен:
http://[fc2c:4e20:c108:dcc3:5cb9:1aba:858a:9c0e]/Public_peers.html
Replies: >>17567, >>17574
>>17566
Как ты предлагаешь смотреть их на сайте в гипербории, если я не могу к ней подключиться?
>>17565
Давай пириться.
Публичные Московские пиры
#1
[comment] Moscow public node
[/comment]
"83.137.52.57:31337":
{
"password": "cjdnsDotixDotgs",
"publicKey": "pvtgk72f25urxqywxdzfk12t2b4kuhtrc2f1mx58rtpx0wzbll90.k"
}
#2
[comment] Moscow public node 2
[/comment]
"82.146.34.103:63336":
{ "password":"vmtgs8phs8w7t76q3zr8v7nxr4txwd1",
"publicKey":"h8p5609d03yt1fzu3dlky3g1kt3bq8gffhnsbq2z1dg8j46rt4w0.k"}
Replies: >>17571
>>17570
Добавил, не помогло.
Replies: >>17572
>>17571
Хотя не, ссылка на поисковик заработала.
Replies: >>17574
ТС, скажи необходимую версию yacy.
>>17566
>>17572
Ссылка ТСа работает, а эта ссылка на публичные пиры — нет.
текщая yacy работает. 1.82
Replies: >>17576
>>17575
Оке, сейчас сделаю ебилд и накачу. У меня был только 1.80
http://hype.rusblock.com/Public_peers.html
Публичный украинский пир лежит.
Replies: >>17578
>>17577
Да, лежит
Replies: >>17579
>>17578
cjdns совсем умерла? Что-то пиров не видать, старые уходят безвозвратно. А автопоиск им не нравится, так и не запилили.
у меня на Московских нормально работает.
>>17553
3. Добавляем список сидов в файл <yacy_home>/defaults/yacy.network.intranet.unit
Где это? У меня есть такие каталоги:
ARCHIVE DICTIONARIES HTCACHE HTDOCS INDEX LISTS LOG RELEASE SETTINGS SKINS SURROGATES WORK
defaults
~/Downloads/yacy$ ls -l
total 200
drwxr-xr-x 7 vadym vadym 4096 січ 21 13:56 addon
-rw-r–r– 1 vadym vadym 834 січ 21 13:56 AUTHORS
drwxr-xr-x 2 vadym vadym 4096 січ 21 13:56 bin
-rw-r–r– 1 vadym vadym 450 січ 21 13:56 build.properties
-rw-r–r– 1 vadym vadym 33135 січ 21 13:56 build.xml
-rw-r–r– 1 vadym vadym 1296 січ 21 13:56 COPYRIGHT
drwxrwxr-x 14 vadym vadym 4096 бер 15 11:20 DATA
drwxr-xr-x 4 vadym vadym 4096 бер 14 23:21 defaults
-rw-r–r– 1 vadym vadym 159 січ 21 13:56 getWin32MaxHeap.bat
-rw-r–r– 1 vadym vadym 18349 січ 21 13:56 gpl.txt
drwxr-xr-x 11 vadym vadym 20480 січ 21 13:56 htroot
-rw-r–r– 1 vadym vadym 1742 січ 21 13:56 installYaCyWindowsService.bat
-rwxr-xr-x 1 vadym vadym 382 січ 21 13:56 killYACY.sh
drwxr-xr-x 2 vadym vadym 4096 січ 21 13:56 langstats
drwxr-xr-x 2 vadym vadym 4096 січ 21 13:56 lib
drwxr-xr-x 5 vadym vadym 4096 січ 21 13:56 libbuild
drwxr-xr-x 2 vadym vadym 4096 січ 21 13:56 locales
-rw-r–r– 1 vadym vadym 417 січ 21 13:56 NOTICE
-rw-r–r– 1 vadym vadym 7593 січ 21 13:56 readme.txt
-rwxr-xr-x 1 vadym vadym 7439 січ 21 13:56 reconfigureYACY.sh
drwxr-xr-x 2 vadym vadym 4096 січ 21 13:56 skins
drwxr-xr-x 4 vadym vadym 4096 січ 21 13:56 source
-rw-r–r– 1 vadym vadym 2314 січ 21 13:56 startYACY.bat
-rw-r–r– 1 vadym vadym 2872 січ 21 13:56 startYACY_debug.bat
-rwxr-xr-x 1 vadym vadym 5927 січ 21 13:56 startYACY.sh
-rw-r–r– 1 vadym vadym 195 січ 21 13:56 stopYACY.bat
-rwxr-xr-x 1 vadym vadym 439 січ 21 13:56 stopYACY.sh
-rw-r–r– 1 vadym vadym 400 січ 21 13:56 uninstallYaCyWindowsService.bat
-rwxr-xr-x 1 vadym vadym 506 січ 21 13:56 updateYACY.sh
-rw-rw-r– 1 vadym vadym 5 бер 15 11:20 yacy.pid
-rw-r–r– 1 vadym vadym 160 січ 21 13:56 yacy.yellow
Replies: >>17583
>>17582
Нашёл. У меня оно в /usr/share/yacy
Когда отвечаешь, тыкай плиз в номер поста на который ответил. Так будет вставляться ссылка. Семантика, мать её.
Replies: >>17584
>>17583
Понял.
У тебя cjdns поднялся?
Replies: >>17586
>>17584
У тебя cjdns поднялся?
Да. А вот yacy что-то не запускается. Процесс поднялся, но грузит проц на 100% и страница не открывается.
Replies: >>17587
>>17586
Ну он не сразу запускается. Нужно подождать.
Replies: >>17588
>>17587
О, кажется есть. Строку добавил, щас рестартану юнит и буду переключать в режим интранета.
Еще нужно перейти в режим peer-to-peer и разрешить DHT
>>17553
Переключаемся в режим локального поиска.
Где это настраивается?
Replies: >>17591
>>17590
1. сначала
http://localhost:8090/ConfigBasic.html
2. разрешаем peer-to-peer и DHT
http://localhost:8090/ConfigNetwork_p.html
Replies: >>17593
>>17591
DHT по ходу только в файле настраивается. А p2p уже в интерфейсе.
Replies: >>17597
Всё настроил, но показывает пустую сеть.
Replies: >>17598, >>17599
>>17593
DHT да, в файле и в режиме p2p тоже разрешить
This enables automated, DHT-ruled Index Transmission to other peers
enable
enable
Accept remote Index Transmissions.
reject
allow
>>17596
# general network definition                                                      
network.unit.name = intranet
network.unit.description = Private Intranet
network.unit.domain = local
network.unit.dht = true
network.unit.dhtredundancy.junior = 1
network.unit.dhtredundancy.senior = 1
network.unit.dht.partitionExponent = 0
network.unit.inspection.searchverify = false
network.unit.remotecrawl.speed = 600
# each network may use different yacy distributions.
# the auto-updater can access network-specific update locations
network.unit.update.location0 = http://yacy.net/en/index.html
network.unit.update.location0.key = MIIBtzCCASwGByqGSM44BAEwggEfAoGBAP1/U4EddRIpUt9KnC7s5Of2EbdSPO9EAMMeP4C2USZpRV1AIlH7WT2NWPq/xfW6MPbLm1Vs14E7gB00b/JmYLdrmVClpJ+f6AR7ECLCT7up1/ 63xhv4O1fnxqimFQ8E+4P208UewwI1VBNaFpEy9nXzrith1yrv8iIDGZ3RSAHHAhUAl2BQjxUjC8yykrmCouuEC/BYHPUCgYEA9+GghdabPd7LvKtcNrhXuXmUr7v6OuqC+VdMCz0HgmdRWVeOutRZT+ ZxBxCBgLRJFnEj6EwoFhO3zwkyjMim4TwWeotUfI0o4KOuHiuzpnWRbqN/C/ohNWLx+2J6ASQ7zKTxvqhRkImog9/hWuWfBpKLZl6Ae1UlZAFMO/7PSSoDgYQAAoGAbGeo21lW3Ost86RxSrCLIHaYaaj/68jFrTMjAORGJqUTgnvYCd4T1HmD/ pCYrW8sQtN4KFPbm8M/MbDWeojQpy+qVqewBilYIdNpArGknvFkw4jpDPu7aR6FRz56zcZTnBiOpqAbBXDB3o6D1w9zVDPd4LBSTLgedt0joZeVAVk=
network.unit.update.location1 = http://kaskelix.de/update/
network.unit.update.location1.key = MIIBtzCCASwGByqGSM44BAEwggEfAoGBAP1/U4EddRIpUt9KnC7s5Of2EbdSPO9EAMMeP4C2USZpRV1AIlH7WT2NWPq/xfW6MPbLm1Vs14E7gB00b/JmYLdrmVClpJ+f6AR7ECLCT7up1/ 63xhv4O1fnxqimFQ8E+4P208UewwI1VBNaFpEy9nXzrith1yrv8iIDGZ3RSAHHAhUAl2BQjxUjC8yykrmCouuEC/BYHPUCgYEA9+GghdabPd7LvKtcNrhXuXmUr7v6OuqC+VdMCz0HgmdRWVeOutRZT+ ZxBxCBgLRJFnEj6EwoFhO3zwkyjMim4TwWeotUfI0o4KOuHiuzpnWRbqN/C/ohNWLx+2J6ASQ7zKTxvqhRkImog9/hWuWfBpKLZl6Ae1UlZAFMO/7PSSoDgYQAAoGAbGeo21lW3Ost86RxSrCLIHaYaaj/68jFrTMjAORGJqUTgnvYCd4T1HmD/ pCYrW8sQtN4KFPbm8M/MbDWeojQpy+qVqewBilYIdNpArGknvFkw4jpDPu7aR6FRz56zcZTnBiOpqAbBXDB3o6D1w9zVDPd4LBSTLgedt0joZeVAVk=
# properties for in-protocol response authentication:
network.unit.protocol.control = uncontrolled
# white/blacklists
network.unit.access.whitelist = 10\..*,127\..*,172\.(1[6-9]|2[0-9]|3[0-1])\..*,169\.254\..*,192\.168\..*,localhost
network.unit.access.blacklist =
# greedy learning: fast information acquisition heuristic for new peers
greedylearning.enabled = false
greedylearning.limit.doccount = 1000
network.unit.bootstrap.seedlist0 = http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt
>>17596
Этот файл открывается?
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt
Replies: >>17600
>>17599
В браузере да.
Replies: >>17603
странно
Replies: >>17604
>>17603
YACY BOOTSTRAP: failed (1) to load seeds from seed-list URL http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt: Client can't execute: Protocol family unavailable duration=1
Replies: >>17605
>>17604
Версия YaCy version 1.82/9000 в
http://localhost:8090/Status.html
?
Replies: >>17606
>>17605
Да, я же специально делал ебилд именно под эту версию.
Replies: >>17607
>>17606
Обновите Java на 1.7
Replies: >>17608
>>17607
Уже.
Возможно дело в опции java.net.preferIPv4Stack=true, проверю без неё.
Replies: >>17609
>>17608
Да. это тоже. Должно быть так
java.net.preferIPv4Stack=false
Replies: >>17610
>>17609
Теперь в логе так: YACY BOOTSTRAP: 0 seeds from seed-list URL http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt, AGE=1h
В списке пиров всё равно пусто.
Ещё там надо прописать список интранет-адресов. Когда я пытаюсь краулить узел в гипербории, оно ругается что он глобальный, а я в интранете. Я так понимаю, надо добавить какой-то паттерн в network.unit.access.whitelist?
Replies: >>17612, >>17613
>>17611
Удалил этот параметр, вроде стали появляться ноды.
Replies: >>17614
>>17611
Он пока понимает только IPv6 адреса
>>17612
Да, я вижу тебя
Как можно найти и удалить старые индексы в базе, которые были созданы ещё в публичных сетях?
Replies: >>17616
Replies: >>17617
>>17616
Ну а дальше?
Алсо, если ТС вдруг не знает, эта борда доступна в гипербории по ch1.neboard.me
Странно что раньше никто не пытался зайти и сказать, что у меня сеть не работает.
Replies: >>17619
Майк, ты? Ты ведь у меня был в пирах, но по тому адресу недоступен. И в жаббере молчишь. ВТФ?
дальше задай урл или regexp для поиска индекса.
.me
этот домен, как и многие другие yacy воспринимает как глобальный адрес и игнорирует его. нужно это фиксить в самом движке yacy.
И я не Майк>>17617
Replies: >>17620
>>17619
этот домен, как и многие другие yacy воспринимает как глобальный адрес и игнорирует его. нужно это фиксить в самом движке yacy.
Ага, напрямую по ip работает.
Replies: >>17621
>>17620
Да у тебя уже 1.5 к ссылок нашло :)
Replies: >>17622
>>17621
Больше.
Local Crawler 2,803
Размер очереди краулера — это сколько страниц он скачал и собирается обработать, или сколько ссылок нашёл и собирается скачать?
Replies: >>17624
>>17623
как оно называтся на интерфесе? и на какой странице этот параметр?
Replies: >>17625
Replies: >>17626
>>17625
Я думаю что это
>> или сколько ссылок нашёл и собирается скачать?
Он не скачивает страницы, а только индексирует.
Replies: >>17627
>>17626
Как можно индексировать не скачивая?
Replies: >>17628
>>17627
Согласен, нельзя без скачивания. Я имел виду что скачивание не является конечным результатом.
Тебя добавило в список Senior peer:
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt
Replies: >>17629, >>17630
>>17628
Тебя добавило в список Senior peer
Чего это даст?
>>17628
Думаю, что если отвалится один из пиров, то система уже не упадет так как есть public доступный peer
У меня ищет пока только локально. Индекс огромный
DISK used: (approx.) 6.56 GB
Replies: >>17634
У тебя работает удаленный поиск?
Replies: >>17633
>>17632
А как проверить? Находит не только то что я индексировал лично, но там ведь есть ещё и remote crawl.
Replies: >>17636
>>17631
Где посмотреть размер индекса?
Replies: >>17635
>>17634
А всё, нашёл. Пишет почему-то 0.
>>17633
В статистике поиска
1-10 of 5,746 ; (5,736 local, 62 remote), 10 from 1 remote YaCy peers.
Replies: >>17637
>>17636
1-10 of 32 ; (22 local, 19 remote), 10 from 1 remote YaCy peers.
Еще можно ранжировать адекватность результатов. +- рядом.
Replies: >>17640
Да, значит у тебя удаленный поиск норм. работает.
>>17638
Мне больше интересно, почему пишет что на диске занято 0, хотя поиск по тому что я индексировал работает.
И ещё, где настройки remote crawling? Чтобы можно было разрешить отправлять запросы другим пирам.
Replies: >>17641, >>17642
Replies: >>17643
>>17640
Может еще не обновило
>>17641
Peers offer remote-crawl urls if the flag 'Do Remote Indexing' is switched on when a crawl is started.
Я так понимаю, если я галочку не поставил, уже никак не исправить?
Replies: >>17644, >>17647
>>17643
А не, исправил через edit profile. У тебя появились запросы от меня?
Replies: >>17647
Какие вообще сайты у нас проиндексированы? И кто эти несколько нод в сети?
Replies: >>17647, >>17648
Осталось всего 1700 страниц локального индекса…
>>17643
Должно работать даже если скан уже запущен.
>>17644
Нет, не вижу. Должно быть эта фича где показывать remote search, не работает как надо
>>17645
Я попробовал замахнутся на индексацию всего что есть. Но видимо не получится. Просто не хватит ресурсов. Да это и не нужно, если поиск рапределенный.
Указал сканировать вот это
http://[fc71:8f0f:d306:f954:73a7:b1fe:e098:8cd1]/nodes.php
Вообще же хорошо индексирован этот сайт:
http://[fcd9:e703:498e:5d07:e5fc:d525:80a6:a51c]/ - явно любитель пони.
Replies: >>17649, >>17650
>>17645
Это мои ноды. я на них запустил CJDNS и YACY также как и ты. только у меня еще есть обновление списка сидов.
Хе. Парсер борды не умеет в ссылки на ipv6 :3
>>17647
http://[fc71:8f0f:d306:f954:73a7:b1fe:e098:8cd1]/nodes.php
Не открывается.
>>17647
Должно быть эта фича где показывать remote search, не работает как надо
Если у тебя свой краулер сейчас работает, то ремоут не будет обслуживаться. Они принимаются когда нода свободна.
Replies: >>17651, >>17652
>>17650
Вот у меня например сейчас только мои личные запросы и 0 в активных удалённых, но в http://localhost:8090/CrawlResults.html?process=6 лежит большущая очередь удалённых запросов.
>>17650
http://[fc71:8f0f:d306:f954:73a7:b1fe:e098:8cd1]/nodes.php
Не работает и у меня
Да, точно. Когда краулер работает значит не стоит еще и удаленные запросы обслуживать.
Хорошо, я счас остановлю кравлер на моей ноде. А ты пошли несколько запросов.
Replies: >>17655
ffb6 твой адрес?
Replies: >>17655
Еще оно умеет и smb, ftp сеть сканировать
http://localhost:8090/CrawlStartScanner_p.html
>>17652
Хорошо, я счас остановлю кравлер на моей ноде. А ты пошли несколько запросов.
У меня уже ключен remove indexing, я не посылаю ничего нового. Либо они у тебя появятся, либо нет.
>>17653
Да.
Вот у меня личный краулинг закончился, и в очереди висят около 200 ремоутов.
Replies: >>17658, >>17659
Странно. По запросу "краулер" выдаёт ссылки на теги, в которых встречается этот тред. Но не на сам тред. Видимо тред он проиндексировал раньше, чем там стало встречаться это слово.
>>17656
Все, капец контролю над инетом. Это то, чего не хватало в IPv4 с его NAT и proxy.
>>17656
Все, капец контролю над инетом. Это то, чего не хватало в IPv4 с его NAT и proxy.
Replies: >>17660
>>17659
Если будет рабочий билд cjdns под винду… они там что то делали, но последний раз оно было очень корявым. я так и не смог подключится.
Replies: >>17664
>>17660
Они бы хоть для openwrt сделали нормальный пакет наконец.
Пропиши себе профили в нодах, чтобы было видно, кто есть кто.
Если что, мой адрес: http://ch1.neboard.me:8090/
>>17550
Нужно отключать UPnP в
Configure your router for YaCy using UPnP:
Или не трогать эту галочку вообще.
Replies: >>17690
>>17688
Это ты кому?
Replies: >>17691
>>17690
Всем Для настройки Yacy.
Отображение картинок в результатах поиска не работает. Если переключить с documents на images, то ссылки рабочие, но самих картинок не видно.
Replies: >>17700
>>17696
Видно, только долго подгружает. Или хост уже недоступен. Проверь что вручную адрес картинки открывается.
Replies: >>17703, >>17704
>>17700
Еще возможно из за размера индекса.
Сейчас размер индекса у меня около 7Гб и дальше растет.
>>17700
Я же сказал, по ссылке в результатах картинки открываются. Но она отображается как ссылка с большими полями, а не как картинка.
Replies: >>17705
>>17704
Можно ссылку на результат поиска?
Replies: >>17707
Replies: >>17709
>>17707
Да, видимо баг
Replies: >>17710
>>17709
Интересно, в чём вообще баг. Оно не работает с ссылками на ipv6 или вообще со всеми?
Replies: >>17712, >>17715
В чём разница между active senior и passive senior?
Replies: >>17712
>>17710
баг в том что на большом индексе пред просмотр картинок не работает. можно было бы сделать хоть с меньшим качеством но показывать. может это глюк в самом индексе, где сохранились только сами ссылки но не их preview.
на некоторых картинках работает нормально.
>>17711
если senior недоступен, то его переводят в passive. пока не пройдет время ожидания в надежде что сновы подымется.
Replies: >>17713
>>17712
если senior недоступен, то его переводят в passive. пока не пройдет время ожидания в надежде что сновы подымется.
И кто отвалился? Я щас вижу что из 3 узлов в сети только 2 активных.
Replies: >>17714, >>17716
>>17713
У меня показывает что все 3 активные
Replies: >>17718
>>17713
Вижу что все у тебя активные:
http://ch1.neboard.me:8090/Network.html?page=1&maxCount=1000
Replies: >>17717
>>17716
Теперь да.
>>17715
У меня эта ссылка вообще не открывается.
Replies: >>17723
>>17718
Попробуй сейчас.
Replies: >>17724
>>17723
То же самое.
Replies: >>17726
>>17724
Периодически отваливается соединение. Ты на каких пирах сидишь?
Replies: >>17727, >>17728
>>17726
Публичные Амстердам и Москва, плюс ещё один знакомый.
>>17726
Давай свои контакты, добавлю тебя к пирам.
Replies: >>17729, >>17730
>>17728
почта vadym.vikulin@gmail.com
Replies: >>17741
>>17728
Дай свое мыло.
Replies: >>17731
>>17730
neko259@gmail.com
Смогу ответить часа через 3-4.
>>17729
Отписался.
У меня каталог yacy занимает 15 гиг. Но в system status показывает что занято 0. Чего ему не хватает?
Кстати, что ты там индексишь до сих пор? У меня ремоут-запросы постоянно висят.
Replies: >>17743
>>17742
Индексирую все что было здесь:
http://[fc71:8f0f:d306:f954:73a7:b1fe:e098:8cd1]/nodes.php
Там было все что появляется в сети Hyperboria. Сейчас хост у меня недоступен. Наверное прикрыли после сканирования моим yacy.
Replies: >>17744
>>17743
Там было все что появляется в сети Hyperboria.
Один вопрос. НАФИГА?
Ты бы сначала более-менее крупную сеть поисковиков поднял. А уже потом каждый бы решил, что хочет индексить. Индексировать всё и сразу не нужно, только диски засрёшь.
Replies: >>17745
>>17744
Перед тем как люди начнут пользоватся нужно посмотреть на что способен этот движок. Например robots.txt он похоже игнорирует, что довольно неприятно, так как засоряет индекс всяким мусором.
Replies: >>17746
>>17745
Obey html-robots-noindex:
Obey html-robots-nofollow:
Первая по умолчанию включена, вторая выключена. Это настраивается в профиле краулера. Если у тебя уже запущен, измени добавив вторую галочку.
Replies: >>17747
>>17746
На сколько я понял, вторая галочка отвечает только за nofollow tag на ссылках но не влияет на то будет ли сканер читать robots.txt или нет.
Replies: >>17748
>>17747
Хм, ну ок.
Привет, Михаил.
Известный тебе сайт умер. Но уже есть новый. Ссылку ты найдешь в bitmessage на нашем чане или на pastebin.com если поищешь.
Удачи.
Он мне проиндексировал даже кнопки добавления тега в избранные и скрытия. Надо сделать их формами с POST'ами на всякий случай…
Replies: >>17915
>>17914
Надо сделать их формами с POST'ами на всякий случай…
Done. Пока там хардкод, чуть позже сделаю template tag для таких целей.
Replies: >>17952
>>17915
Надеюсь, ты проверяешь, что там действительно POST :}
Replies: >>17956
>>17952
В каком смысле проверяю? Если каким-то боком инпуты отправили не через пост, их не будет в переменной POST и метод сломается.
Как бы сделать, чтобы поисковик не лазил по каждой странице списка тредов?
Replies: >>17964
>>17957
Не совсем понял что эта за страница. Почему сканер не должен их индексировать?
Изменил профайл для intranet. Фактически это копия профайла для обычного интернета (freenet файла). Меня не устроило как работает передача индекса. ПРоверяю как работает на этих настройках.
файл - yacy.network.intranet.unit
# Network definition file for the freeworld network
# this is the default standard network for fresh YaCy Peers
# —————————————————————–#
# for an explanation please see the file yacy.network.readme #
# this is a work in progress. disabled properties are not yet used #
# —————————————————————–#
# general network definition
network.unit.name = intranet
network.unit.description = Private Intranet
network.unit.domain = local
network.unit.dht = true
# the number of redundant target peers:
# redundant peers get a copy of the original dht target information
network.unit.dhtredundancy.junior = 1
network.unit.dhtredundancy.senior = 3
network.unit.dht.partitionExponent = 4
network.unit.inspection.searchverify = true
# speed of remote crawl de-queueing. this is the number of milliseconds
# as a pause between two requests
network.unit.remotecrawl.speed = 300
# maximum search time for remote queries (milliseconds)
network.unit.remotesearch.maxtime = 3000
# each network may use different yacy distributions.
# the auto-updater can access network-specific update locations
network.unit.update.location0 = http://yacy.net/en/index.html
network.unit.update.location0.key = MIIBtzCCASwGByqGSM44BAEwggEfAoGBAP1/U4EddRIpUt9KnC7s5Of2EbdSPO9EAMMeP4C2USZpRV1AIlH7WT2NWPq/xfW6MPbLm1Vs14E7gB00b/JmYLdrmVClpJ+f6AR7ECLCT7up1/63xhv4O1fnxqimFQ8E+4P208UewwI1VBNaFpEy9nXzrith1yrv8iIDGZ3RSAHHAhUAl2BQjxUjC8yykrmCouuEC/BYHPUCgYEA9+GghdabPd7LvKtcNrhXuXmUr7v6OuqC+VdMCz0HgmdRWVeOutRZT+ZxBxCBgLRJFnEj6EwoFhO3zwkyjMim4TwWeotUfI0o4KOuHiuzpnWRbqN/C/ohNWLx+2J6ASQ7zKTxvqhRkImog9/hWuWfBpKLZl6Ae1UlZAFMO/7PSSoDgYQAAoGAbGeo21lW3Ost86RxSrCLIHaYaaj/68jFrTMjAORGJqUTgnvYCd4T1HmD/pCYrW8sQtN4KFPbm8M/MbDWeojQpy+qVqewBilYIdNpArGknvFkw4jpDPu7aR6FRz56zcZTnBiOpqAbBXDB3o6D1w9zVDPd4LBSTLgedt0joZeVAVk=
network.unit.update.location1 = http://kaskelix.de/update/
network.unit.update.location1.key = MIIBtzCCASwGByqGSM44BAEwggEfAoGBAP1/U4EddRIpUt9KnC7s5Of2EbdSPO9EAMMeP4C2USZpRV1AIlH7WT2NWPq/xfW6MPbLm1Vs14E7gB00b/JmYLdrmVClpJ+f6AR7ECLCT7up1/63xhv4O1fnxqimFQ8E+4P208UewwI1VBNaFpEy9nXzrith1yrv8iIDGZ3RSAHHAhUAl2BQjxUjC8yykrmCouuEC/BYHPUCgYEA9+GghdabPd7LvKtcNrhXuXmUr7v6OuqC+VdMCz0HgmdRWVeOutRZT+ZxBxCBgLRJFnEj6EwoFhO3zwkyjMim4TwWeotUfI0o4KOuHiuzpnWRbqN/C/ohNWLx+2J6ASQ7zKTxvqhRkImog9/hWuWfBpKLZl6Ae1UlZAFMO/7PSSoDgYQAAoGAbGeo21lW3Ost86RxSrCLIHaYaaj/68jFrTMjAORGJqUTgnvYCd4T1HmD/pCYrW8sQtN4KFPbm8M/MbDWeojQpy+qVqewBilYIdNpArGknvFkw4jpDPu7aR6FRz56zcZTnBiOpqAbBXDB3o6D1w9zVDPd4LBSTLgedt0joZeVAVk=
# properties for in-protocol response authentication:
network.unit.protocol.control = uncontrolled
# white/blacklists
network.unit.access.whitelist = 10\..*,127\..*,172\.(1[6-9]|2[0-9]|3[0-1])\..*,169\.254\..*,192\.168\..*
network.unit.access.blacklist =
# greedy learning: fast information acquisition heuristic for new peers
greedylearning.enabled = true
greedylearning.limit.doccount = 1000
network.unit.bootstrap.seedlist0 = http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt
Replies: >>17966, >>17967
>>17965
Работает намного лучше. Теперь намного больше записей приходит с remote. Скорее всего, этот параметр позволил уделенным запросам влиять на результаты поиска:
# maximum search time for remote queries (milliseconds)
network.unit.remotesearch.maxtime = 3000
>>17965
Мне тоже заменить?
Replies: >>17968
>>17967
Да, у тебя индекс тоже, практически, локальный.
Replies: >>17969
>>17968
Ок, перезапускаю.
Если он при индексировании обнаруживает, что старым докам добавился параметр noindex, он их удалит из индекса?
Replies: >>17972, >>17973
У меня индекс 20 ГиБ. Откуда там столько мусора и как его почистить?
Replies: >>17973
>>17970
Судя по всему, удаляет.
>>17970
Есть настройка в Advaced Crawler:
Multiple Snapshot Versions:
replace old snapshots with new one add new versions for each crawl
В зависимости от этого и должно удалить или оставить старую версию.
>>17971
Нужно указывать меньшую глубину сканирования (2..3). Еще должны пофиксить robots.txt баг:
http://mantis.tokeek.de/view.php?id=561
Replies: >>17974
>>17973
Нужно указывать меньшую глубину сканирования
Зачем? Он же тогда будет пропускать ссылки.
Replies: >>17975
>>17974
Количество ссылок в результате скана зависит от глубины экспоненциально. А пропускать сканер ничего не будет: просто остановится на том уровне, что указано глубиной. 3 - это нормально. если у тебя даже при тройке все еще много ссылок - значит ты напоролся на говносайт типа такого:
http://[fc38:4c2c:1a8f:3981:f2e7:c2b9:6870:6e84]/dots/
Я его включил в черный список и удалил с индекса. И сразу 44к документов почистилось.
Replies: >>17976
>>17975
Количество ссылок в результате скана зависит от глубины экспоненциально.
Почему? Если у нас одна и та же ссылка доступна из двух разных мест, она же не будет индексироваться 2 раза подряд?
Replies: >>17977
>>17976
Думаю, это ты взял довольно частный случай. Я считаю,что ссылки не повторяются на разных сайтах. А те, что повторяются, ссылаются на единичные, супер популярные сайти. Ты можешь убедится в этом здесь:
http://localhost:8090/HostBrowser.html?admin=true&hosts=
В топе сравнительно малое количество сайтов. они насышены ссылками на самих себя. Можно изучить этот вопрос более детально.
Replies: >>17978
>>17977
Я для таких случаев сейчас начал добавлять noindex на те страницы, которые не нужны. Например, на список тредов где /page/номер в ссылке (раньше они индексировались как отдельные страницы).
Replies: >>17979
>>17978
Хотя, тогда же он не сможет получить доступ к тредам, не ходя по страницам…
Придётся таки вернуть.
Replies: >>17980
>>17979
Тебя не должен волновать этот вопрос. Уникальность страниц должен проверять сам поисковый движок.
Replies: >>17981
>>17980
Да это я натупил. Они уникальные.
Но для штук вроде уведомлений, страницы поиска и настроек я noindex оставлю.
Теперь вопрос остаётся только в ETag'е и if-modified-since, с которыми много сложностей. Я пока не могу их нормально реализовать.
Имеет ли вообще смысл делать список тредов индексируемым? Ведь достаточно индексировать по идее сами треды, а не их перечень.
И да, если noindex стоит у списка тредов, не помешает ли это поисковику найти ссылки на треды? Не сохраняя эти страницы в локальный индекс, он не перестанет собирать ссылки с них?
Replies: >>17983, >>17984
>>17982
Сейчас оно мне выкидывает по запросу "криптоанархизм" десяток ссылок на /tag/криптоанархизм/page/100500.
>>17982
По оптимизации можешь посмотреть это:
http://uk.wikipedia.org/wiki/Sitemap
И да, если noindex стоит у списка тредов, не помешает ли это поисковику найти ссылки на треды?
Думаю, что для конкретно этой бороды не помешает. Треды же есть на самих страницах. Если глубина сканирования достаточна, то сканер их найдет. А для облегчения этого дела и придумали SiteMap
Replies: >>17985, >>17989, >>18021
>>17984
Ушел. Спокю ночи.
Replies: >>17986
>>17985
Удач. Я тоже отойду.
>>17984
noindex, follow
Replies: >>17991
>>17989
Что бы это значило?
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]:8090/ у меня не открывается. Отвалился?
Replies: >>18012
>>18006
Сейчас тоже не открывается?
Replies: >>18013
>>18012
Открывается.
Пересканировал, но ссылки с /page/N и ссылки на старые кнопки добавления тегов в избранные и скрытые никуда не делись. Надо будет попробовать удалить вручную.
А куда они дели киберпанковую страницу на узле, где показывалась статистика, форма сети, лог и сканируемые картинки? Она была такая наркоманская.
>>17984
Нафига sitemap вообще нужен? Поисковик не будет индексировать то, что в нём не указано?
Replies: >>18022
>>18021
Для оптимизации индексирования.
Replies: >>18024
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]:8090/ временно будет недоступен в связи с работами на сервере.
>>18022
В чём она заключается?
Картинки вроде заработали.
Replies: >>18277
Replies: >>18278
>>18277
Ты зря его рекламируешь. В идеале у каждого должна быть своя нода.
Replies: >>18280
Надо выработать инструкцию по поднятию ноды и выложить куда-то на вики гипербории.
>>18278
Не совсем так, именно этот сервак содержит список сидов (Principal Node), к которым подключаясь, другие ноды (Senior, Joined, Virgin) могут обмениватся индекс и другими данными. Для обычной ноды, да, - необходимости в публикации нет - это будет сделано автоматически, с помощью уже указанных Principal Node
Replies: >>18281
>>18280
Да, ты прав.
Куда подевались все пиры?
Replies: >>19084
>>19083
А, туплю. Это же у меня cjdns не собирается.
Положил свой узел, так как некогда починить cjdns.
Тред не читал, небордочка проиндексирована YaCy?
Replies: >>20997
>>20871
Была. Но теперь нет, поскольку у меня проблемы с cjdns вместе с miredo.
Replies: >>21185
>>20997
А вне cjdns? В клирнете?
Replies: >>21188
>>21185
В клирнете достаточно обычных поисковиков.
Replies: >>21331
>>21188
Недостаточно. Обычные поисковики можно анально отцензурить и провернуть с ними прочие плохие вещи, а с YaCy — нет. И всё же, небордочка проиндексирована YaCy в клирнете?
Replies: >>21332
>>21331
В YaCy тоже тоже можно производить махинации с порядком выдачи.
>И всё же, небордочка проиндексирована YaCy в клирнете?
Я не индексировал. А вообще в инете много узлов YaCy, возьми да проверь.
Replies: >>21333
>>21332
>В YaCy тоже тоже можно производить махинации с порядком выдачи.
Каким образом? Ес-но, в пределах локальной ноды это сделать можно, но каким образом из распределённого поискового индекса можно удалить данные? В таком случае нужно высылать пативены ко всем держателям нод с нужной информацией, но это же нереально.
>возьми да проверь
Частично индексирована, судя по всему.
Replies: >>21335
>>21333
>Ес-но, в пределах локальной ноды это сделать можно, но каким образом из распределённого поискового индекса можно удалить данные?
Распределённость в YaCy не гарантирует, что один сайт индексируют много узлов. Небордочка может быть проиндексирована у 1-2 человек, которые могут делать гадости в пределах своих нод.
Replies: >>21338
>>21335
Видимо, я что-то не понимаю в принципах работы яси. Разве индекс не копируется по всем узлам, как база транзакций в Bitcoin?
Replies: >>21339
>>21338
>Разве индекс не копируется по всем узлам, как база транзакций в Bitcoin?
Неа. В момент запроса узел спрашивает, есть ли у кого-то что-то по такому запросу.
Replies: >>21340, >>21342
>>21339
Хотя я могу ошибаться. Но ЕМНИП именно так.
>>21339
Спасибо за разъяснение.