Включение ПК голосом!

Автор Digital, 29-11-2011, 17:54:57

« предыдущая - следующая »

0 Пользователей и 1 гость просматривают эту тему.

Sasha

[spoiler]Мало что уже помню из обработки сигналов, но из того что осталось у меня в голове, при распознавании речи на вход поступает сигнал, тоесть звуковая волна с определенными параметрами. Пользуясь некоторыми фильтрами из нее пытаются максимально убрать шумы и помехи, после чего этот сигнал раскладывается в численный ряд (кажись Фурье), который и анализируется. По поводу интонации, я не пытался реализовать распознаватель, поэтому не могу сказать какие факторы на сколько влияют на качество, но если посмотреть на это с той стороны что это по сути задача та же что и с распознаванием изображений - есть образ, необходимо его классифицировать, думаю выделить интонацию не так сложно, а в распознавании изображений есть такая штука как учет контекста, то есть, к примеру, если программа нашла сосок на фоне лица, то она сначала должна подумать может ли он там быть и если нет, то что это может быть. Думаю здесь эти принципи тоже задействованы. По поводу анализа мимики лица, это ты уже конечно загнул. Наверняка и в этом направлении работают, но узнаем мы чтото более конкретное наверное нескоро, все таки образование наше не успевает за развитием отрасли.
На счет ботов, то их пишут на специальных языках, которые как ты сказал представляют из себя по сути БД и правила работы с ней. У меня за годы обучения уже столько этих ботов написано и по сути развивались они вместе с развитием этих языков. И от этого принципа я думаю мы врядли скоро уйдем[/spoiler]
Ну и раз уже пошла такая пьянка, представлю вам свое недавнее "достижение". Программа открывает изображение в формате tga и распознает текст в нем. Там не используются никакие нейронные сети и прочее, все мое каждая строчка - мои стертые об клавиатуру пальцы. На тестировании я взял 2/3 текста на обучение и треть на распознавание. С изображением приведенным ниже (замечание: повлияло очень плохое качество изображения, здесь оно уже после обработки и этого не так сильно видно) процент распознавания получился ~94%. Правда он так и не распознал ни одной большой буквы, но это уже недостаток обучения.


skype: ab.sasha

Digital

Ты извини если что. Мы читать тоже не умели, но запомнили как выглядит каждая буква, и как она произносится. Это не интеллект, точнее, интеллект состоит из многих частей. Один двигатель не есть машина, машина это комплекс механизмов которые работают с обратной связью друг с другом. Так же и с ИИ, я считаю. Сейчас даже фотомыльницы распознают улыбку человека - это Интеллект? А нисколько! Программа "нажать затвор" срабатывает когда кривая области рта достигает опреденного градуса изгиба. Даже роботы с Ютьюба, которые сами подходят к холодильнику, открывают дверь, им говорят взять красный стаканчик и поставить на стол, те полностью выполняют команду. Увы, это не AI, если этому роботу не дать никакой команды - он простая консервная банка. AI - череда мыслей в мозгу робота. Не важно откуда они будут браться. Генерироваться локально, или принимать всю информацию со спутников и уже генерировать мысли из полученной информации. (Пример человека: Хм, чем же себя занять... *увидел машину* о, точно надо чинить машину) Для этого необходима огромная пропускная способность, а это нейросети, что вероятнее всего.
Но мы далеко отошли от темы. Всё намного проще. Нужно немного усложнить выключатель, который включать/выключает свет от звука (по хлопку в ладоши).

Sasha

Если бы классификаторы работали по принципу запомнил как выглядит буква и увидел такую - вспомнил, то далеко б на таком алгоритме мы не уехали)
Недостаток нейронных сетей в том, что до недавнего времени они подходили только для очень узкого круга задач (на сколько я понял эту проблему вроде недавно преодолели). И как не крути большие нейронные сети и работают очень долго. Это я уже не говорю о том что попробуй ее построить эту сеть еще)
skype: ab.sasha

Digital

"запомнил букву, увидел - вспомнил" - я привел пример "как у людей", но в принципе алгоритм одинаков. Как машина будет знать как выглядит красное яблоко, если она его не видела? Показал ей яблоко, она не нашла в БД инфы о нём, спросила "what's this?" ей сказали "this is an apple" то, что оно красное, машина должна знать еще "с пелёнок", цвета и оттенки, по-идеи, должны вноситься вместе с умением генерировать речь. Всю информацию об окружении невозможно внести в БД, и это уже не будет ИИ, а сплошной набор инструкций. Поэтому тут ничего нелогичного нет, иррационально? мейби...  Но ведь машина должна уметь думать сама, а не кушать инфу из блюдечка с голубой каёмочкой?

Чтобы собрать полноценную НС способную думать, как минимум, на равных с человеком - нужно изучить досконально головной мозг. А этого до сих пор никто не сделал, и с таким темпом изучения будет построена такая Сеть очень не скоро. Хоть бы внуки увидели умные машины, неговоря уже про детей!.. :(

Хотя есть мизерный шанс, что в Силиконовой долине на объекте со статусом top secret (равным со сверхсекретным аэродромом "Зона-51" на котором ведется разработка летательных аппаратов) уже всё есть, и проводятся исследования но гражданским знать об этом не положено...

Sasha

Если распознавать образы по образцу, то малейшее отклонение от идеала уже будет критичным.
Слышал что где-то разрабатывают экспертную систему, в которую вносят знания обо всем на свете. И вроде как уже есть неплохие успехи. Тоесть опять таки огромная бд и правила работы с ней и никакого тебе "интеллекта")
skype: ab.sasha

Sasha

Вобщем если с сессией будет все норм постараюсь показать несколько приемов по распознаванию текста, без использования нейронных сетей из тех что знаю.
skype: ab.sasha

Digital

15-01-2012, 11:12:39 #21 Последнее редактирование: 15-01-2012, 11:20:08 от Digital
Про отклонения: я же говорил, если разработать систему допусков на тональность произношения никаких проблем не будет.
Про мировую бд: это не интересно, т.к. опять-таки никакого интеллекта, таким как его представляет каждый недалёкий человек, в этой системе не будет.
Машину должны учить всему, что знает человек естественным путём, как ребёнка, а машина должна понимать (а не находить наиболее подходящую инструкцию для выполнения из БД)

Снова примеры: машина должна адекватно оценивать поведение человека основываясь на его поведении (прошу прощения за тафтологию) если психует, плохое, слушает музыку с улыбкой и наслаждением - хорошее. Уметь различать юмор от сатиры - пожалуй наиболее точный пример интеллекта машины, которому одних кодов слишком мало, нужна материальная база. В конце концов, улавливать смысл с полуфразы, который она знает: вопрос машине "Когда одинаковые слова повторяются, как это наз..." ответ машины моментальный - тафтология.

Распознавание рукописного текста, это безусловно очень полезная штука, только у нее "интеллекта" (если у кого повернётся язык так сказать) как у бабочки. Но опять-таки, у нас пока ничего совершенного не существует, у программы может получится сбой, при обращении к памяти.

P.S. Я за полную самостоятельность машины и независимость от человека.
И не командовать ею, а просить (знаю, абсурд, но так интереснее :) )

Sasha

Большинство людей не способно на то что ты написал)))
skype: ab.sasha