Hyperboria search engine (Yacy)

Перекатить тему
Команда Yacy добавила поддержку IPv6. Теперь Yacy поисковик можно использовать для поиска по Hyperboria. Нужны добровольцы для запуска нескольких нодов.
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]:8090/ - моя первая нода
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]:8090/Network.html - сеть
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt - список сидов
http://yacy.net/en/index.html - сам поисковик.
Ответы: >>17553, >>17688
Там надо какие-то настройки делать?
Так-то у меня вроде был ебилд, могу обновить и запустить. Это ведь стабильная версия, не просто ревизия?
Кстати, по ссылке не открывается.
Ответы: >>17554
>>17550
1. Устанавливаем YaCy.
2. Переключаемся в режим локального поиска.
3. Добавляем список сидов в файл <yacy_home>/defaults/yacy.network.intranet.unit
Прописываем строку:
network.unit.update.location0 = http://yacy.net/en/index.html
Ответы: >>17557, >>17581, >>17590
>>17552
У вас работает CJDNS?
Ответы: >>17559
>>17553
Не та строка. Нужно прописывать это
network.unit.bootstrap.seedlist0 = http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt
>>17554
Вроде работал, но конкретно этот адрес не пингуется.
Скажи какой-нибудь 100% рабочий адрес в cjdns, попробую пингануть его. А то может мои пиры отвалились.
Ответы: >>17561
>>17559
Похоже на то. Ни один публичный адрес не пингуется.
Если у кого заработает и кто может поделитесь пирами для CJDNS
Ответы: >>17564
>>17563
Я бы поделился, но сам не могу никого найти.
Все с кем я пирился пока в жаббере молчат.
$ ping6 socialno.de
PING socialno.de(fcec:ae97:8902:d810:6c92:ec67:efb2:3ec5) 56 data bytes
64 bytes from fcec:ae97:8902:d810:6c92:ec67:efb2:3ec5: icmp_seq=1 ttl=42 time=255 ms
64 bytes from fcec:ae97:8902:d810:6c92:ec67:efb2:3ec5: icmp_seq=2 ttl=42 time=254 ms
64 bytes from fcec:ae97:8902:d810:6c92:ec67:efb2:3ec5: icmp_seq=3 ttl=42 time=287 ms
64 bytes from fcec:ae97:8902:d810:6c92:ec67:efb2:3ec5: icmp_seq=4 ttl=42 time=258 ms
Ответы: >>17569
Вот те пиры к которым я подключен:
http://[fc2c:4e20:c108:dcc3:5cb9:1aba:858a:9c0e]/Public_peers.html
Ответы: >>17567, >>17574
>>17566
Как ты предлагаешь смотреть их на сайте в гипербории, если я не могу к ней подключиться?
>>17565
Давай пириться.
Публичные Московские пиры
#1
[comment] Moscow public node
[/comment]
"83.137.52.57:31337":
{
"password": "cjdnsDotixDotgs",
"publicKey": "pvtgk72f25urxqywxdzfk12t2b4kuhtrc2f1mx58rtpx0wzbll90.k"
}
#2
[comment] Moscow public node 2
[/comment]
"82.146.34.103:63336":
{ "password":"vmtgs8phs8w7t76q3zr8v7nxr4txwd1",
"publicKey":"h8p5609d03yt1fzu3dlky3g1kt3bq8gffhnsbq2z1dg8j46rt4w0.k"}
Ответы: >>17571
>>17570
Добавил, не помогло.
Ответы: >>17572
>>17571
Хотя не, ссылка на поисковик заработала.
Ответы: >>17574
ТС, скажи необходимую версию yacy.
>>17566
>>17572
Ссылка ТСа работает, а эта ссылка на публичные пиры — нет.
текщая yacy работает. 1.82
Ответы: >>17576
>>17575
Оке, сейчас сделаю ебилд и накачу. У меня был только 1.80
http://hype.rusblock.com/Public_peers.html
Публичный украинский пир лежит.
Ответы: >>17578
>>17577
Да, лежит
Ответы: >>17579
>>17578
cjdns совсем умерла? Что-то пиров не видать, старые уходят безвозвратно. А автопоиск им не нравится, так и не запилили.
у меня на Московских нормально работает.
>>17553
3. Добавляем список сидов в файл <yacy_home>/defaults/yacy.network.intranet.unit
Где это? У меня есть такие каталоги:
ARCHIVE DICTIONARIES HTCACHE HTDOCS INDEX LISTS LOG RELEASE SETTINGS SKINS SURROGATES WORK
defaults
~/Downloads/yacy$ ls -l
total 200
drwxr-xr-x 7 vadym vadym 4096 січ 21 13:56 addon
-rw-r–r– 1 vadym vadym 834 січ 21 13:56 AUTHORS
drwxr-xr-x 2 vadym vadym 4096 січ 21 13:56 bin
-rw-r–r– 1 vadym vadym 450 січ 21 13:56 build.properties
-rw-r–r– 1 vadym vadym 33135 січ 21 13:56 build.xml
-rw-r–r– 1 vadym vadym 1296 січ 21 13:56 COPYRIGHT
drwxrwxr-x 14 vadym vadym 4096 бер 15 11:20 DATA
drwxr-xr-x 4 vadym vadym 4096 бер 14 23:21 defaults
-rw-r–r– 1 vadym vadym 159 січ 21 13:56 getWin32MaxHeap.bat
-rw-r–r– 1 vadym vadym 18349 січ 21 13:56 gpl.txt
drwxr-xr-x 11 vadym vadym 20480 січ 21 13:56 htroot
-rw-r–r– 1 vadym vadym 1742 січ 21 13:56 installYaCyWindowsService.bat
-rwxr-xr-x 1 vadym vadym 382 січ 21 13:56 killYACY.sh
drwxr-xr-x 2 vadym vadym 4096 січ 21 13:56 langstats
drwxr-xr-x 2 vadym vadym 4096 січ 21 13:56 lib
drwxr-xr-x 5 vadym vadym 4096 січ 21 13:56 libbuild
drwxr-xr-x 2 vadym vadym 4096 січ 21 13:56 locales
-rw-r–r– 1 vadym vadym 417 січ 21 13:56 NOTICE
-rw-r–r– 1 vadym vadym 7593 січ 21 13:56 readme.txt
-rwxr-xr-x 1 vadym vadym 7439 січ 21 13:56 reconfigureYACY.sh
drwxr-xr-x 2 vadym vadym 4096 січ 21 13:56 skins
drwxr-xr-x 4 vadym vadym 4096 січ 21 13:56 source
-rw-r–r– 1 vadym vadym 2314 січ 21 13:56 startYACY.bat
-rw-r–r– 1 vadym vadym 2872 січ 21 13:56 startYACY_debug.bat
-rwxr-xr-x 1 vadym vadym 5927 січ 21 13:56 startYACY.sh
-rw-r–r– 1 vadym vadym 195 січ 21 13:56 stopYACY.bat
-rwxr-xr-x 1 vadym vadym 439 січ 21 13:56 stopYACY.sh
-rw-r–r– 1 vadym vadym 400 січ 21 13:56 uninstallYaCyWindowsService.bat
-rwxr-xr-x 1 vadym vadym 506 січ 21 13:56 updateYACY.sh
-rw-rw-r– 1 vadym vadym 5 бер 15 11:20 yacy.pid
-rw-r–r– 1 vadym vadym 160 січ 21 13:56 yacy.yellow
Ответы: >>17583
>>17582
Нашёл. У меня оно в /usr/share/yacy
Когда отвечаешь, тыкай плиз в номер поста на который ответил. Так будет вставляться ссылка. Семантика, мать её.
Ответы: >>17584
>>17583
Понял.
У тебя cjdns поднялся?
Ответы: >>17586
>>17584
У тебя cjdns поднялся?
Да. А вот yacy что-то не запускается. Процесс поднялся, но грузит проц на 100% и страница не открывается.
Ответы: >>17587
>>17586
Ну он не сразу запускается. Нужно подождать.
Ответы: >>17588
>>17587
О, кажется есть. Строку добавил, щас рестартану юнит и буду переключать в режим интранета.
Еще нужно перейти в режим peer-to-peer и разрешить DHT
>>17553
Переключаемся в режим локального поиска.
Где это настраивается?
Ответы: >>17591
>>17590
1. сначала
http://localhost:8090/ConfigBasic.html
2. разрешаем peer-to-peer и DHT
http://localhost:8090/ConfigNetwork_p.html
Ответы: >>17593
>>17591
DHT по ходу только в файле настраивается. А p2p уже в интерфейсе.
Ответы: >>17597
Всё настроил, но показывает пустую сеть.
Ответы: >>17598, >>17599
>>17593
DHT да, в файле и в режиме p2p тоже разрешить
This enables automated, DHT-ruled Index Transmission to other peers
enable
enable
Accept remote Index Transmissions.
reject
allow
>>17596
# general network definition                                                      
network.unit.name = intranet
network.unit.description = Private Intranet
network.unit.domain = local
network.unit.dht = true
network.unit.dhtredundancy.junior = 1
network.unit.dhtredundancy.senior = 1
network.unit.dht.partitionExponent = 0
network.unit.inspection.searchverify = false
network.unit.remotecrawl.speed = 600
# each network may use different yacy distributions.
# the auto-updater can access network-specific update locations
network.unit.update.location0 = http://yacy.net/en/index.html
network.unit.update.location0.key = MIIBtzCCASwGByqGSM44BAEwggEfAoGBAP1/U4EddRIpUt9KnC7s5Of2EbdSPO9EAMMeP4C2USZpRV1AIlH7WT2NWPq/xfW6MPbLm1Vs14E7gB00b/JmYLdrmVClpJ+f6AR7ECLCT7up1/ 63xhv4O1fnxqimFQ8E+4P208UewwI1VBNaFpEy9nXzrith1yrv8iIDGZ3RSAHHAhUAl2BQjxUjC8yykrmCouuEC/BYHPUCgYEA9+GghdabPd7LvKtcNrhXuXmUr7v6OuqC+VdMCz0HgmdRWVeOutRZT+ ZxBxCBgLRJFnEj6EwoFhO3zwkyjMim4TwWeotUfI0o4KOuHiuzpnWRbqN/C/ohNWLx+2J6ASQ7zKTxvqhRkImog9/hWuWfBpKLZl6Ae1UlZAFMO/7PSSoDgYQAAoGAbGeo21lW3Ost86RxSrCLIHaYaaj/68jFrTMjAORGJqUTgnvYCd4T1HmD/ pCYrW8sQtN4KFPbm8M/MbDWeojQpy+qVqewBilYIdNpArGknvFkw4jpDPu7aR6FRz56zcZTnBiOpqAbBXDB3o6D1w9zVDPd4LBSTLgedt0joZeVAVk=
network.unit.update.location1 = http://kaskelix.de/update/
network.unit.update.location1.key = MIIBtzCCASwGByqGSM44BAEwggEfAoGBAP1/U4EddRIpUt9KnC7s5Of2EbdSPO9EAMMeP4C2USZpRV1AIlH7WT2NWPq/xfW6MPbLm1Vs14E7gB00b/JmYLdrmVClpJ+f6AR7ECLCT7up1/ 63xhv4O1fnxqimFQ8E+4P208UewwI1VBNaFpEy9nXzrith1yrv8iIDGZ3RSAHHAhUAl2BQjxUjC8yykrmCouuEC/BYHPUCgYEA9+GghdabPd7LvKtcNrhXuXmUr7v6OuqC+VdMCz0HgmdRWVeOutRZT+ ZxBxCBgLRJFnEj6EwoFhO3zwkyjMim4TwWeotUfI0o4KOuHiuzpnWRbqN/C/ohNWLx+2J6ASQ7zKTxvqhRkImog9/hWuWfBpKLZl6Ae1UlZAFMO/7PSSoDgYQAAoGAbGeo21lW3Ost86RxSrCLIHaYaaj/68jFrTMjAORGJqUTgnvYCd4T1HmD/ pCYrW8sQtN4KFPbm8M/MbDWeojQpy+qVqewBilYIdNpArGknvFkw4jpDPu7aR6FRz56zcZTnBiOpqAbBXDB3o6D1w9zVDPd4LBSTLgedt0joZeVAVk=
# properties for in-protocol response authentication:
network.unit.protocol.control = uncontrolled
# white/blacklists
network.unit.access.whitelist = 10\..*,127\..*,172\.(1[6-9]|2[0-9]|3[0-1])\..*,169\.254\..*,192\.168\..*,localhost
network.unit.access.blacklist =
# greedy learning: fast information acquisition heuristic for new peers
greedylearning.enabled = false
greedylearning.limit.doccount = 1000
network.unit.bootstrap.seedlist0 = http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt
Ответы: >>17600
>>17599
В браузере да.
Ответы: >>17603
странно
Ответы: >>17604
>>17603
YACY BOOTSTRAP: failed (1) to load seeds from seed-list URL http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt: Client can't execute: Protocol family unavailable duration=1
Ответы: >>17605
>>17604
Версия YaCy version 1.82/9000 в
http://localhost:8090/Status.html
?
Ответы: >>17606
>>17605
Да, я же специально делал ебилд именно под эту версию.
Ответы: >>17607
>>17606
Обновите Java на 1.7
Ответы: >>17608
>>17607
Уже.
Возможно дело в опции java.net.preferIPv4Stack=true, проверю без неё.
Ответы: >>17609
>>17608
Да. это тоже. Должно быть так
java.net.preferIPv4Stack=false
Ответы: >>17610
>>17609
Теперь в логе так: YACY BOOTSTRAP: 0 seeds from seed-list URL http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt, AGE=1h
В списке пиров всё равно пусто.
Ещё там надо прописать список интранет-адресов. Когда я пытаюсь краулить узел в гипербории, оно ругается что он глобальный, а я в интранете. Я так понимаю, надо добавить какой-то паттерн в network.unit.access.whitelist?
Ответы: >>17612, >>17613
>>17611
Удалил этот параметр, вроде стали появляться ноды.
Ответы: >>17614
>>17611
Он пока понимает только IPv6 адреса
>>17612
Да, я вижу тебя
Как можно найти и удалить старые индексы в базе, которые были созданы ещё в публичных сетях?
Ответы: >>17616
Ответы: >>17617
>>17616
Ну а дальше?
Алсо, если ТС вдруг не знает, эта борда доступна в гипербории по ch1.neboard.me
Странно что раньше никто не пытался зайти и сказать, что у меня сеть не работает.
Ответы: >>17619
Майк, ты? Ты ведь у меня был в пирах, но по тому адресу недоступен. И в жаббере молчишь. ВТФ?
дальше задай урл или regexp для поиска индекса.
.me
этот домен, как и многие другие yacy воспринимает как глобальный адрес и игнорирует его. нужно это фиксить в самом движке yacy.
И я не Майк>>17617
Ответы: >>17620
>>17619
этот домен, как и многие другие yacy воспринимает как глобальный адрес и игнорирует его. нужно это фиксить в самом движке yacy.
Ага, напрямую по ip работает.
Ответы: >>17621
>>17620
Да у тебя уже 1.5 к ссылок нашло :)
Ответы: >>17622
>>17621
Больше.
Local Crawler 2,803
Размер очереди краулера — это сколько страниц он скачал и собирается обработать, или сколько ссылок нашёл и собирается скачать?
Ответы: >>17624
>>17623
как оно называтся на интерфесе? и на какой странице этот параметр?
Ответы: >>17625
Ответы: >>17626
>>17625
Я думаю что это
>> или сколько ссылок нашёл и собирается скачать?
Он не скачивает страницы, а только индексирует.
Ответы: >>17627
>>17626
Как можно индексировать не скачивая?
Ответы: >>17628
>>17627
Согласен, нельзя без скачивания. Я имел виду что скачивание не является конечным результатом.
Тебя добавило в список Senior peer:
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt
Ответы: >>17629, >>17630
>>17628
Тебя добавило в список Senior peer
Чего это даст?
>>17628
Думаю, что если отвалится один из пиров, то система уже не упадет так как есть public доступный peer
У меня ищет пока только локально. Индекс огромный
DISK used: (approx.) 6.56 GB
Ответы: >>17634
У тебя работает удаленный поиск?
Ответы: >>17633
>>17632
А как проверить? Находит не только то что я индексировал лично, но там ведь есть ещё и remote crawl.
Ответы: >>17636
>>17631
Где посмотреть размер индекса?
Ответы: >>17635
>>17634
А всё, нашёл. Пишет почему-то 0.
>>17633
В статистике поиска
1-10 of 5,746 ; (5,736 local, 62 remote), 10 from 1 remote YaCy peers.
Ответы: >>17637
>>17636
1-10 of 32 ; (22 local, 19 remote), 10 from 1 remote YaCy peers.
Еще можно ранжировать адекватность результатов. +- рядом.
Ответы: >>17640
Да, значит у тебя удаленный поиск норм. работает.
>>17638
Мне больше интересно, почему пишет что на диске занято 0, хотя поиск по тому что я индексировал работает.
И ещё, где настройки remote crawling? Чтобы можно было разрешить отправлять запросы другим пирам.
Ответы: >>17641, >>17642
Ответы: >>17643
>>17640
Может еще не обновило
>>17641
Peers offer remote-crawl urls if the flag 'Do Remote Indexing' is switched on when a crawl is started.
Я так понимаю, если я галочку не поставил, уже никак не исправить?
Ответы: >>17644, >>17647
>>17643
А не, исправил через edit profile. У тебя появились запросы от меня?
Ответы: >>17647
Какие вообще сайты у нас проиндексированы? И кто эти несколько нод в сети?
Ответы: >>17647, >>17648
Осталось всего 1700 страниц локального индекса…
>>17643
Должно работать даже если скан уже запущен.
>>17644
Нет, не вижу. Должно быть эта фича где показывать remote search, не работает как надо
>>17645
Я попробовал замахнутся на индексацию всего что есть. Но видимо не получится. Просто не хватит ресурсов. Да это и не нужно, если поиск рапределенный.
Указал сканировать вот это
http://[fc71:8f0f:d306:f954:73a7:b1fe:e098:8cd1]/nodes.php
Вообще же хорошо индексирован этот сайт:
http://[fcd9:e703:498e:5d07:e5fc:d525:80a6:a51c]/ - явно любитель пони.
Ответы: >>17649, >>17650
>>17645
Это мои ноды. я на них запустил CJDNS и YACY также как и ты. только у меня еще есть обновление списка сидов.
Хе. Парсер борды не умеет в ссылки на ipv6 :3
>>17647
http://[fc71:8f0f:d306:f954:73a7:b1fe:e098:8cd1]/nodes.php
Не открывается.
>>17647
Должно быть эта фича где показывать remote search, не работает как надо
Если у тебя свой краулер сейчас работает, то ремоут не будет обслуживаться. Они принимаются когда нода свободна.
Ответы: >>17651, >>17652
>>17650
Вот у меня например сейчас только мои личные запросы и 0 в активных удалённых, но в http://localhost:8090/CrawlResults.html?process=6 лежит большущая очередь удалённых запросов.
>>17650
http://[fc71:8f0f:d306:f954:73a7:b1fe:e098:8cd1]/nodes.php
Не работает и у меня
Да, точно. Когда краулер работает значит не стоит еще и удаленные запросы обслуживать.
Хорошо, я счас остановлю кравлер на моей ноде. А ты пошли несколько запросов.
Ответы: >>17655
ffb6 твой адрес?
Ответы: >>17655
Еще оно умеет и smb, ftp сеть сканировать
http://localhost:8090/CrawlStartScanner_p.html
>>17652
Хорошо, я счас остановлю кравлер на моей ноде. А ты пошли несколько запросов.
У меня уже ключен remove indexing, я не посылаю ничего нового. Либо они у тебя появятся, либо нет.
>>17653
Да.
Вот у меня личный краулинг закончился, и в очереди висят около 200 ремоутов.
Ответы: >>17658, >>17659
Странно. По запросу "краулер" выдаёт ссылки на теги, в которых встречается этот тред. Но не на сам тред. Видимо тред он проиндексировал раньше, чем там стало встречаться это слово.
>>17656
Все, капец контролю над инетом. Это то, чего не хватало в IPv4 с его NAT и proxy.
>>17656
Все, капец контролю над инетом. Это то, чего не хватало в IPv4 с его NAT и proxy.
Ответы: >>17660
>>17659
Если будет рабочий билд cjdns под винду… они там что то делали, но последний раз оно было очень корявым. я так и не смог подключится.
Ответы: >>17664
>>17660
Они бы хоть для openwrt сделали нормальный пакет наконец.
Пропиши себе профили в нодах, чтобы было видно, кто есть кто.
Если что, мой адрес: http://ch1.neboard.me:8090/
>>17550
Нужно отключать UPnP в
Configure your router for YaCy using UPnP:
Или не трогать эту галочку вообще.
Ответы: >>17690
>>17688
Это ты кому?
Ответы: >>17691
>>17690
Всем Для настройки Yacy.
Отображение картинок в результатах поиска не работает. Если переключить с documents на images, то ссылки рабочие, но самих картинок не видно.
Ответы: >>17700
>>17696
Видно, только долго подгружает. Или хост уже недоступен. Проверь что вручную адрес картинки открывается.
Ответы: >>17703, >>17704
>>17700
Еще возможно из за размера индекса.
Сейчас размер индекса у меня около 7Гб и дальше растет.
>>17700
Я же сказал, по ссылке в результатах картинки открываются. Но она отображается как ссылка с большими полями, а не как картинка.
Ответы: >>17705
>>17704
Можно ссылку на результат поиска?
Ответы: >>17707
Ответы: >>17709
>>17707
Да, видимо баг
Ответы: >>17710
>>17709
Интересно, в чём вообще баг. Оно не работает с ссылками на ipv6 или вообще со всеми?
Ответы: >>17712, >>17715
В чём разница между active senior и passive senior?
Ответы: >>17712
>>17710
баг в том что на большом индексе пред просмотр картинок не работает. можно было бы сделать хоть с меньшим качеством но показывать. может это глюк в самом индексе, где сохранились только сами ссылки но не их preview.
на некоторых картинках работает нормально.
>>17711
если senior недоступен, то его переводят в passive. пока не пройдет время ожидания в надежде что сновы подымется.
Ответы: >>17713
>>17712
если senior недоступен, то его переводят в passive. пока не пройдет время ожидания в надежде что сновы подымется.
И кто отвалился? Я щас вижу что из 3 узлов в сети только 2 активных.
Ответы: >>17714, >>17716
>>17713
У меня показывает что все 3 активные
Ответы: >>17718
>>17713
Вижу что все у тебя активные:
http://ch1.neboard.me:8090/Network.html?page=1&maxCount=1000
Ответы: >>17717
>>17716
Теперь да.
>>17715
У меня эта ссылка вообще не открывается.
Ответы: >>17723
>>17718
Попробуй сейчас.
Ответы: >>17724
>>17723
То же самое.
Ответы: >>17726
>>17724
Периодически отваливается соединение. Ты на каких пирах сидишь?
Ответы: >>17727, >>17728
>>17726
Публичные Амстердам и Москва, плюс ещё один знакомый.
>>17726
Давай свои контакты, добавлю тебя к пирам.
Ответы: >>17729, >>17730
>>17728
почта vadym.vikulin@gmail.com
Ответы: >>17741
>>17728
Дай свое мыло.
Ответы: >>17731
>>17730
neko259@gmail.com
Смогу ответить часа через 3-4.
>>17729
Отписался.
У меня каталог yacy занимает 15 гиг. Но в system status показывает что занято 0. Чего ему не хватает?
Кстати, что ты там индексишь до сих пор? У меня ремоут-запросы постоянно висят.
Ответы: >>17743
>>17742
Индексирую все что было здесь:
http://[fc71:8f0f:d306:f954:73a7:b1fe:e098:8cd1]/nodes.php
Там было все что появляется в сети Hyperboria. Сейчас хост у меня недоступен. Наверное прикрыли после сканирования моим yacy.
Ответы: >>17744
>>17743
Там было все что появляется в сети Hyperboria.
Один вопрос. НАФИГА?
Ты бы сначала более-менее крупную сеть поисковиков поднял. А уже потом каждый бы решил, что хочет индексить. Индексировать всё и сразу не нужно, только диски засрёшь.
Ответы: >>17745
>>17744
Перед тем как люди начнут пользоватся нужно посмотреть на что способен этот движок. Например robots.txt он похоже игнорирует, что довольно неприятно, так как засоряет индекс всяким мусором.
Ответы: >>17746
>>17745
Obey html-robots-noindex:
Obey html-robots-nofollow:
Первая по умолчанию включена, вторая выключена. Это настраивается в профиле краулера. Если у тебя уже запущен, измени добавив вторую галочку.
Ответы: >>17747
>>17746
На сколько я понял, вторая галочка отвечает только за nofollow tag на ссылках но не влияет на то будет ли сканер читать robots.txt или нет.
Ответы: >>17748
>>17747
Хм, ну ок.
Привет, Михаил.
Известный тебе сайт умер. Но уже есть новый. Ссылку ты найдешь в bitmessage на нашем чане или на pastebin.com если поищешь.
Удачи.
Он мне проиндексировал даже кнопки добавления тега в избранные и скрытия. Надо сделать их формами с POST'ами на всякий случай…
Ответы: >>17915
>>17914
Надо сделать их формами с POST'ами на всякий случай…
Done. Пока там хардкод, чуть позже сделаю template tag для таких целей.
Ответы: >>17952
>>17915
Надеюсь, ты проверяешь, что там действительно POST :}
Ответы: >>17956
>>17952
В каком смысле проверяю? Если каким-то боком инпуты отправили не через пост, их не будет в переменной POST и метод сломается.
Как бы сделать, чтобы поисковик не лазил по каждой странице списка тредов?
Ответы: >>17964
>>17957
Не совсем понял что эта за страница. Почему сканер не должен их индексировать?
Изменил профайл для intranet. Фактически это копия профайла для обычного интернета (freenet файла). Меня не устроило как работает передача индекса. ПРоверяю как работает на этих настройках.
файл - yacy.network.intranet.unit
# Network definition file for the freeworld network
# this is the default standard network for fresh YaCy Peers
# —————————————————————–#
# for an explanation please see the file yacy.network.readme #
# this is a work in progress. disabled properties are not yet used #
# —————————————————————–#
# general network definition
network.unit.name = intranet
network.unit.description = Private Intranet
network.unit.domain = local
network.unit.dht = true
# the number of redundant target peers:
# redundant peers get a copy of the original dht target information
network.unit.dhtredundancy.junior = 1
network.unit.dhtredundancy.senior = 3
network.unit.dht.partitionExponent = 4
network.unit.inspection.searchverify = true
# speed of remote crawl de-queueing. this is the number of milliseconds
# as a pause between two requests
network.unit.remotecrawl.speed = 300
# maximum search time for remote queries (milliseconds)
network.unit.remotesearch.maxtime = 3000
# each network may use different yacy distributions.
# the auto-updater can access network-specific update locations
network.unit.update.location0 = http://yacy.net/en/index.html
network.unit.update.location0.key = MIIBtzCCASwGByqGSM44BAEwggEfAoGBAP1/U4EddRIpUt9KnC7s5Of2EbdSPO9EAMMeP4C2USZpRV1AIlH7WT2NWPq/xfW6MPbLm1Vs14E7gB00b/JmYLdrmVClpJ+f6AR7ECLCT7up1/63xhv4O1fnxqimFQ8E+4P208UewwI1VBNaFpEy9nXzrith1yrv8iIDGZ3RSAHHAhUAl2BQjxUjC8yykrmCouuEC/BYHPUCgYEA9+GghdabPd7LvKtcNrhXuXmUr7v6OuqC+VdMCz0HgmdRWVeOutRZT+ZxBxCBgLRJFnEj6EwoFhO3zwkyjMim4TwWeotUfI0o4KOuHiuzpnWRbqN/C/ohNWLx+2J6ASQ7zKTxvqhRkImog9/hWuWfBpKLZl6Ae1UlZAFMO/7PSSoDgYQAAoGAbGeo21lW3Ost86RxSrCLIHaYaaj/68jFrTMjAORGJqUTgnvYCd4T1HmD/pCYrW8sQtN4KFPbm8M/MbDWeojQpy+qVqewBilYIdNpArGknvFkw4jpDPu7aR6FRz56zcZTnBiOpqAbBXDB3o6D1w9zVDPd4LBSTLgedt0joZeVAVk=
network.unit.update.location1 = http://kaskelix.de/update/
network.unit.update.location1.key = MIIBtzCCASwGByqGSM44BAEwggEfAoGBAP1/U4EddRIpUt9KnC7s5Of2EbdSPO9EAMMeP4C2USZpRV1AIlH7WT2NWPq/xfW6MPbLm1Vs14E7gB00b/JmYLdrmVClpJ+f6AR7ECLCT7up1/63xhv4O1fnxqimFQ8E+4P208UewwI1VBNaFpEy9nXzrith1yrv8iIDGZ3RSAHHAhUAl2BQjxUjC8yykrmCouuEC/BYHPUCgYEA9+GghdabPd7LvKtcNrhXuXmUr7v6OuqC+VdMCz0HgmdRWVeOutRZT+ZxBxCBgLRJFnEj6EwoFhO3zwkyjMim4TwWeotUfI0o4KOuHiuzpnWRbqN/C/ohNWLx+2J6ASQ7zKTxvqhRkImog9/hWuWfBpKLZl6Ae1UlZAFMO/7PSSoDgYQAAoGAbGeo21lW3Ost86RxSrCLIHaYaaj/68jFrTMjAORGJqUTgnvYCd4T1HmD/pCYrW8sQtN4KFPbm8M/MbDWeojQpy+qVqewBilYIdNpArGknvFkw4jpDPu7aR6FRz56zcZTnBiOpqAbBXDB3o6D1w9zVDPd4LBSTLgedt0joZeVAVk=
# properties for in-protocol response authentication:
network.unit.protocol.control = uncontrolled
# white/blacklists
network.unit.access.whitelist = 10\..*,127\..*,172\.(1[6-9]|2[0-9]|3[0-1])\..*,169\.254\..*,192\.168\..*
network.unit.access.blacklist =
# greedy learning: fast information acquisition heuristic for new peers
greedylearning.enabled = true
greedylearning.limit.doccount = 1000
network.unit.bootstrap.seedlist0 = http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]/seed.txt
Ответы: >>17966, >>17967
>>17965
Работает намного лучше. Теперь намного больше записей приходит с remote. Скорее всего, этот параметр позволил уделенным запросам влиять на результаты поиска:
# maximum search time for remote queries (milliseconds)
network.unit.remotesearch.maxtime = 3000
>>17965
Мне тоже заменить?
Ответы: >>17968
>>17967
Да, у тебя индекс тоже, практически, локальный.
Ответы: >>17969
>>17968
Ок, перезапускаю.
Если он при индексировании обнаруживает, что старым докам добавился параметр noindex, он их удалит из индекса?
Ответы: >>17972, >>17973
У меня индекс 20 ГиБ. Откуда там столько мусора и как его почистить?
Ответы: >>17973
>>17970
Судя по всему, удаляет.
>>17970
Есть настройка в Advaced Crawler:
Multiple Snapshot Versions:
replace old snapshots with new one add new versions for each crawl
В зависимости от этого и должно удалить или оставить старую версию.
>>17971
Нужно указывать меньшую глубину сканирования (2..3). Еще должны пофиксить robots.txt баг:
http://mantis.tokeek.de/view.php?id=561
Ответы: >>17974
>>17973
Нужно указывать меньшую глубину сканирования
Зачем? Он же тогда будет пропускать ссылки.
Ответы: >>17975
>>17974
Количество ссылок в результате скана зависит от глубины экспоненциально. А пропускать сканер ничего не будет: просто остановится на том уровне, что указано глубиной. 3 - это нормально. если у тебя даже при тройке все еще много ссылок - значит ты напоролся на говносайт типа такого:
http://[fc38:4c2c:1a8f:3981:f2e7:c2b9:6870:6e84]/dots/
Я его включил в черный список и удалил с индекса. И сразу 44к документов почистилось.
Ответы: >>17976
>>17975
Количество ссылок в результате скана зависит от глубины экспоненциально.
Почему? Если у нас одна и та же ссылка доступна из двух разных мест, она же не будет индексироваться 2 раза подряд?
Ответы: >>17977
>>17976
Думаю, это ты взял довольно частный случай. Я считаю,что ссылки не повторяются на разных сайтах. А те, что повторяются, ссылаются на единичные, супер популярные сайти. Ты можешь убедится в этом здесь:
http://localhost:8090/HostBrowser.html?admin=true&hosts=
В топе сравнительно малое количество сайтов. они насышены ссылками на самих себя. Можно изучить этот вопрос более детально.
Ответы: >>17978
>>17977
Я для таких случаев сейчас начал добавлять noindex на те страницы, которые не нужны. Например, на список тредов где /page/номер в ссылке (раньше они индексировались как отдельные страницы).
Ответы: >>17979
>>17978
Хотя, тогда же он не сможет получить доступ к тредам, не ходя по страницам…
Придётся таки вернуть.
Ответы: >>17980
>>17979
Тебя не должен волновать этот вопрос. Уникальность страниц должен проверять сам поисковый движок.
Ответы: >>17981
>>17980
Да это я натупил. Они уникальные.
Но для штук вроде уведомлений, страницы поиска и настроек я noindex оставлю.
Теперь вопрос остаётся только в ETag'е и if-modified-since, с которыми много сложностей. Я пока не могу их нормально реализовать.
Имеет ли вообще смысл делать список тредов индексируемым? Ведь достаточно индексировать по идее сами треды, а не их перечень.
И да, если noindex стоит у списка тредов, не помешает ли это поисковику найти ссылки на треды? Не сохраняя эти страницы в локальный индекс, он не перестанет собирать ссылки с них?
Ответы: >>17983, >>17984
>>17982
Сейчас оно мне выкидывает по запросу "криптоанархизм" десяток ссылок на /tag/криптоанархизм/page/100500.
>>17982
По оптимизации можешь посмотреть это:
http://uk.wikipedia.org/wiki/Sitemap
И да, если noindex стоит у списка тредов, не помешает ли это поисковику найти ссылки на треды?
Думаю, что для конкретно этой бороды не помешает. Треды же есть на самих страницах. Если глубина сканирования достаточна, то сканер их найдет. А для облегчения этого дела и придумали SiteMap
Ответы: >>17985, >>17989, >>18021
>>17984
Ушел. Спокю ночи.
Ответы: >>17986
>>17985
Удач. Я тоже отойду.
>>17984
noindex, follow
Ответы: >>17991
>>17989
Что бы это значило?
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]:8090/ у меня не открывается. Отвалился?
Ответы: >>18012
>>18006
Сейчас тоже не открывается?
Ответы: >>18013
>>18012
Открывается.
Пересканировал, но ссылки с /page/N и ссылки на старые кнопки добавления тегов в избранные и скрытые никуда не делись. Надо будет попробовать удалить вручную.
А куда они дели киберпанковую страницу на узле, где показывалась статистика, форма сети, лог и сканируемые картинки? Она была такая наркоманская.
>>17984
Нафига sitemap вообще нужен? Поисковик не будет индексировать то, что в нём не указано?
Ответы: >>18022
>>18021
Для оптимизации индексирования.
Ответы: >>18024
http://[fc46:a72b:9577:4fdf:236d:3665:ee6a:3dcd]:8090/ временно будет недоступен в связи с работами на сервере.
>>18022
В чём она заключается?
Картинки вроде заработали.
Ответы: >>18277
Ответы: >>18278
>>18277
Ты зря его рекламируешь. В идеале у каждого должна быть своя нода.
Ответы: >>18280
Надо выработать инструкцию по поднятию ноды и выложить куда-то на вики гипербории.
>>18278
Не совсем так, именно этот сервак содержит список сидов (Principal Node), к которым подключаясь, другие ноды (Senior, Joined, Virgin) могут обмениватся индекс и другими данными. Для обычной ноды, да, - необходимости в публикации нет - это будет сделано автоматически, с помощью уже указанных Principal Node
Ответы: >>18281
>>18280
Да, ты прав.
Куда подевались все пиры?
Ответы: >>19084
>>19083
А, туплю. Это же у меня cjdns не собирается.
Положил свой узел, так как некогда починить cjdns.
Тред не читал, небордочка проиндексирована YaCy?
Ответы: >>20997
>>20871
Была. Но теперь нет, поскольку у меня проблемы с cjdns вместе с miredo.
Ответы: >>21185
>>20997
А вне cjdns? В клирнете?
Ответы: >>21188
>>21185
В клирнете достаточно обычных поисковиков.
Ответы: >>21331
>>21188
Недостаточно. Обычные поисковики можно анально отцензурить и провернуть с ними прочие плохие вещи, а с YaCy — нет. И всё же, небордочка проиндексирована YaCy в клирнете?
Ответы: >>21332
>>21331
В YaCy тоже тоже можно производить махинации с порядком выдачи.
>И всё же, небордочка проиндексирована YaCy в клирнете?
Я не индексировал. А вообще в инете много узлов YaCy, возьми да проверь.
Ответы: >>21333
>>21332
>В YaCy тоже тоже можно производить махинации с порядком выдачи.
Каким образом? Ес-но, в пределах локальной ноды это сделать можно, но каким образом из распределённого поискового индекса можно удалить данные? В таком случае нужно высылать пативены ко всем держателям нод с нужной информацией, но это же нереально.
>возьми да проверь
Частично индексирована, судя по всему.
Ответы: >>21335
>>21333
>Ес-но, в пределах локальной ноды это сделать можно, но каким образом из распределённого поискового индекса можно удалить данные?
Распределённость в YaCy не гарантирует, что один сайт индексируют много узлов. Небордочка может быть проиндексирована у 1-2 человек, которые могут делать гадости в пределах своих нод.
Ответы: >>21338
>>21335
Видимо, я что-то не понимаю в принципах работы яси. Разве индекс не копируется по всем узлам, как база транзакций в Bitcoin?
Ответы: >>21339
>>21338
>Разве индекс не копируется по всем узлам, как база транзакций в Bitcoin?
Неа. В момент запроса узел спрашивает, есть ли у кого-то что-то по такому запросу.
Ответы: >>21340, >>21342
>>21339
Хотя я могу ошибаться. Но ЕМНИП именно так.
>>21339
Спасибо за разъяснение.