А в какой СУБД хранятся данные? И в каких кодировках?
В текущей версии форума - в sqlite2
Кстати, нет смысла тянуть с публикованием файла резервной копии форума. Можно уже сейчас выставить в торрент.
as is базу выложить нельзя - ведь в ней находится в том числе и конфеденциальная информация (e-mail (не все e-mail свой публикуют) и хеши паролей (теоретически вполне ломаемые на современной персоналке). Поэтому нужно кое-что поотрезать.
Да, а суммарно база (даже как есть) не крупная - метров 30. Так что можно без торрентов - просто с сайта будет скачать.
У меня как раз будет на чём тестировать свой модуль автоматической каталогизации тем. Как только будет готов, конечно.
Да, я тоже об это думал. В смысле о автоматической категоризации и о том что кому-то еще база для этого может пригодиться. От автоматической категоризации отказался пока. Но базу выложу, как только так сразу :-) Постараюсь завтра это сделать. В csv-формате.
Более того, зачем вести разработки по-партизански. Поди, если не кодом - может советом помочь сможем.
Я боюсь, что не показав работу я не смогу просто объяснить в чем суть идеи. Точнее даже хуже - меня поймут не так.
Но есть одна проблема которая, пожалуй, может быть озвучена и понята: в текущим виде сообщения темы все плоские. То есть у каждого сообщения никак не указано на кого это ответ. Обсуждения не выстраиваются в деревья. В простейшем случае понятно как выстроить связь - если в данном сообщении цитируется одно сообщение из данной ветки, значит на него это ответ и есть. Но существуют сообщения которые либо не цитируют кого-либо вообще, либо цитируют сразу нескольких. Как с ними быть? Причем человек, по контексту, обычно может понять к какой подветки обсуждения относится данное сообщение, и, возможно, даже на какое сообщение это отвечает.